論文の概要: From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12861v2
- Date: Tue, 18 Nov 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.793214
- Title: From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models
- Title(参考訳): 知覚から推論へ:マルチモーダルな大規模言語モデルに深層思考が力を与える
- Authors: Wenxin Zhu, Andong Chen, Yuchen Song, Kehai Chen, Conghui Zhu, Ziyan Chen, Tiejun Zhao,
- Abstract要約: CoT(Chain-of-Thought)推論は、推論の透明性と出力の解釈可能性を高めることによって、言語モデルにおいて有意な効果を示した。
本稿では,Multimodal Chain-of-Thought(MCoT)を中心にしたシステムレビューを行う。
- 参考スコア(独自算出の注目度): 36.54062692717823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable success of Multimodal Large Language Models (MLLMs) in perception tasks, enhancing their complex reasoning capabilities has emerged as a critical research focus. Existing models still suffer from challenges such as opaque reasoning paths and insufficient generalization ability. Chain-of-Thought (CoT) reasoning, which has demonstrated significant efficacy in language models by enhancing reasoning transparency and output interpretability, holds promise for improving model reasoning capabilities when extended to the multimodal domain. This paper provides a systematic review centered on "Multimodal Chain-of-Thought" (MCoT). First, it analyzes the background and theoretical motivations for its inception from the perspectives of technical evolution and task demands. Then, it introduces mainstream MCoT methods from three aspects: CoT paradigms, the post-training stage, and the inference stage, while also analyzing their underlying mechanisms. Furthermore, the paper summarizes existing evaluation benchmarks and metrics, and discusses the application scenarios of MCoT. Finally, it analyzes the challenges currently facing MCoT and provides an outlook on its future research directions.
- Abstract(参考訳): 知覚タスクにおけるMLLM(Multimodal Large Language Models)の顕著な成功により、その複雑な推論能力の強化が重要な研究の焦点となっている。
既存のモデルはいまだに不透明な推論パスや一般化能力の不足といった課題に悩まされている。
CoT(Chain-of-Thought)推論は、推論の透明性と出力の解釈可能性を高めることで言語モデルに顕著な効果を示しており、マルチモーダルドメインに拡張された場合のモデル推論能力の向上を約束している。
本稿では,Multimodal Chain-of-Thought(MCoT)を中心に,系統的なレビューを行う。
まず、技術的進化とタスク要求の観点から、その開始の背景と理論的動機を分析します。
次に、CoTパラダイム、ポストトレーニングステージ、推論ステージの3つの側面からメインストリームのMCoTメソッドを導入し、その基盤となるメカニズムを解析する。
さらに、既存の評価ベンチマークとメトリクスを要約し、MCoTの適用シナリオについて論じる。
最後に、現在MCoTが直面している課題を分析し、今後の研究方向性を展望する。
関連論文リスト
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文 参考訳(メタデータ) (2025-03-16T18:39:13Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。