論文の概要: Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings
- arxiv url: http://arxiv.org/abs/2602.00574v1
- Date: Sat, 31 Jan 2026 07:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.26157
- Title: Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings
- Title(参考訳): 潜伏埋め込みを用いたモーダルミキシング・オブ・サート推論の学習
- Authors: Yifei Shao, Kun Zhou, Ziming Xu, Mohammad Atif Quamar, Shibo Hao, Zhen Wang, Zhiting Hu, Biwei Huang,
- Abstract要約: 我々は、多モーダル推論をよりうまく扱うために、言語を超えてチェーン・オブ・シント(CoT)を拡張する方法について研究する。
テキストトークンをラテント埋め込みとして表現したコンパクトなビジュアルスケッチでインターリーブするモードミックスCoTを提案する。
我々の手法は言語のみの手法や他のCoT手法よりも優れた性能が得られる。
- 参考スコア(独自算出の注目度): 39.4633015395276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to extend chain-of-thought (CoT) beyond language to better handle multimodal reasoning. While CoT helps LLMs and VLMs articulate intermediate steps, its text-only form often fails on vision-intensive problems where key intermediate states are inherently visual. We introduce modal-mixed CoT, which interleaves textual tokens with compact visual sketches represented as latent embeddings. To bridge the modality gap without eroding the original knowledge and capability of the VLM, we use the VLM itself as an encoder and train the language backbone to reconstruct its own intermediate vision embeddings, to guarantee the semantic alignment of the visual latent space. We further attach a diffusion-based latent decoder, invoked by a special control token and conditioned on hidden states from the VLM. In this way, the diffusion head carries fine-grained perceptual details while the VLM specifies high-level intent, which cleanly disentangles roles and reduces the optimization pressure of the VLM. Training proceeds in two stages: supervised fine-tuning on traces that interleave text and latents with a joint next-token and latent-reconstruction objective, followed by reinforcement learning that teaches when to switch modalities and how to compose long reasoning chains. Extensive experiments across 11 diverse multimodal reasoning tasks, demonstrate that our method yields better performance than language-only and other CoT methods. Our code will be publicly released.
- Abstract(参考訳): 我々は、多モーダル推論をよりうまく扱うために、言語を超えてチェーン・オブ・シント(CoT)を拡張する方法について研究する。
CoT は LLM や VLM が中間ステップを明確にするのに役立つが、そのテキストのみの形式は、主要な中間状態が本質的に視覚的な問題でしばしば失敗する。
テキストトークンをラテント埋め込みとして表現したコンパクトなビジュアルスケッチでインターリーブするモードミックスCoTを提案する。
VLMの本来の知識と能力を損なうことなく、モダリティギャップを橋渡しするために、VLM自体をエンコーダとして使用し、言語バックボーンをトレーニングして、視覚的潜在空間のセマンティックアライメントを保証するために、独自の中間視覚埋め込みを再構築する。
さらに、特殊制御トークンによって起動され、VLMからの隠れ状態に条件付けされた拡散型潜伏復号器を付加する。
このように拡散ヘッドは、VLMが高レベルのインテントを指定している間に、微細な知覚の詳細を搬送し、VLMの役割をきれいに切り離し、VLMの最適化圧力を低減させる。
トレーニングは、テキストとラテントをインターリーブするトレースを監督し、次に、いつモーダルを切り替えるかを教える強化学習と、長い推論連鎖を構成する方法を教える。
11種類の多モーダルな推論タスクに対する大規模な実験により、我々の手法は言語のみや他のCoT手法よりも優れた性能が得られることを示した。
私たちのコードは公開されます。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。
本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。
M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文 参考訳(メタデータ) (2025-10-14T14:58:25Z) - CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention [32.07189678228538]
マルチモーダル・イン・コンテキスト・ラーニング(ICL)は、大規模視覚言語モデル(LVLM)がパラメータを更新せずに新しいタスクに適応できる重要な機能として登場しつつある。
ICLは、よく整合したインコンテキスト・デモ(ICD)であっても不安定であり、LVLMが提供されたコンテキストを完全に活用するのに苦労していることを示唆している。
本研究では,LVLMのアテンションログを,入力したインコンテキストシーケンスに基づいて動的に変調するプラグイン・アンド・プレイ・トレーニングフリーな手法であるtextbfContext-Aware Modulated Attention (CAMA)を提案する。
論文 参考訳(メタデータ) (2025-05-21T04:25:23Z) - Interleaved-Modal Chain-of-Thought [14.342351827047862]
チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。
我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。
ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
論文 参考訳(メタデータ) (2024-11-29T06:06:35Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。