論文の概要: Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.12587v1
- Date: Mon, 18 Aug 2025 02:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.950115
- Title: Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける潜在空間推論のための連続的思考のマルチモーダルチェイン
- Authors: Tan-Hanh Pham, Chris Ngo,
- Abstract要約: 本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reasoning techniques for large multimodal models adapt language model approaches, such as Chain-of-Thought (CoT) prompting, which express reasoning as word sequences. While effective for text, these methods are suboptimal for multimodal contexts, struggling to align audio, visual, and textual information dynamically. To explore an alternative paradigm, we propose the Multimodal Chain of Continuous Thought (MCOUT), which enables reasoning directly in a joint latent space rather than in natural language. In MCOUT, the reasoning state is represented as a continuous hidden vector, iteratively refined and aligned with visual and textual embeddings, inspired by human reflective cognition. We develop two variants: MCOUT-Base, which reuses the language model`s last hidden state as the continuous thought for iterative reasoning, and MCOUT-Multi, which integrates multimodal latent attention to strengthen cross-modal alignment between visual and textual features. Experiments on benchmarks including MMMU, ScienceQA, and MMStar show that MCOUT consistently improves multimodal reasoning, yielding up to 8.23% accuracy gains over strong baselines and improving BLEU scores up to 8.27% across multiple-choice and open-ended tasks. These findings highlight latent continuous reasoning as a promising direction for advancing LMMs beyond language-bound CoT, offering a scalable framework for human-like reflective multimodal inference. Code is available at https://github.com/Hanhpt23/OmniMod.
- Abstract(参考訳): 大規模マルチモーダルモデルの推論技術は、単語列としての推論を表現するChain-of-Thought(CoT)プロンプトなど、言語モデルアプローチに適応する。
テキストには有効だが、これらの手法はマルチモーダルな文脈に最適であり、音声、視覚、テキスト情報を動的に整列させるのに苦労している。
代替パラダイムを探求するために,自然言語ではなく共同潜在空間での推論を可能にするMCOUT(Multimodal Chain of Continuous Thought)を提案する。
MCOUTでは、推論状態は連続的な隠れベクターとして表現され、人間の反射的認知にインスパイアされて、反復的に洗練され、視覚的およびテキスト的な埋め込みと整合する。
言語モデルの最後の隠れ状態を反復的推論の連続的思考として再利用するMCOUT-Baseと、視覚的特徴とテキスト的特徴の相互アライメントを強化するためにマルチモーダル潜在注意を統合するMCOUT-Multiの2種類を開発した。
MMMU、ScienceQA、MMStarなどのベンチマーク実験では、MCOUTはマルチモーダル推論を一貫して改善し、強いベースラインよりも最大8.23%の精度が向上し、複数選択およびオープンエンドタスクにおいてBLEUスコアが最大8.27%向上している。
これらの知見は、言語に縛られたCoTを超えてLMMを進めるための有望な方向として、潜在的連続推論が強調され、人間のような反射型マルチモーダル推論のためのスケーラブルなフレームワークを提供する。
コードはhttps://github.com/Hanhpt23/OmniModで入手できる。
関連論文リスト
- MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [18.73221445082855]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning [18.7712668000592]
動的空間推論の評価を目的とした新しい迷路ナビゲーションベンチマークを提案する。
実験により、動的視覚的ドラフトによる推論連鎖の増大、入力画像のオーバーレイドは、従来の手法よりも著しく優れていることが示された。
D2R(Dynamic Draft-Augmented Reasoning)は、テキストCoTと対応するビジュアルドラフトをシームレスにMLLMに統合するトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T12:14:23Z) - Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文 参考訳(メタデータ) (2025-05-21T13:29:58Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。