論文の概要: Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
- arxiv url: http://arxiv.org/abs/2511.22586v1
- Date: Thu, 27 Nov 2025 16:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.639445
- Title: Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
- Title(参考訳): 視覚中心の推論一般化における長軸鎖の必要性を再考する
- Authors: Yifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu,
- Abstract要約: 本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
- 参考スコア(独自算出の注目度): 55.6995787502694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how different Chain-of-Thought (CoT) designs affect the acquisition of the generalizable visual reasoning ability in vision-language models (VLMs). While CoT data, especially long or visual CoT such as "think with image", has been widely used to supervise intermediate reasoning, it remains unclear why specific CoT designs help and which ones truly support generalizable reasoning. To systematically evaluate this, we focus on a controlled maze-solving benchmark where reasoning rules are fully visual, difficulty can be tuned by grid size, and all the intermediate steps can be automatically generated. Using Qwen2.5-VL-7B under a standard SFT-then-RL pipeline, we compare three representative CoT formats: Language CoT, Grounding CoT (with spatial coordinate trajectories), and Visual CoT (with image manipulations). Our experiments reveal that visual and longer CoT mainly accelerate convergence but do not lift the final performance ceiling; concise CoT containing only essential grounding steps outperforms longer traces; and, strikingly, CoT retaining only the minimal grounding results generalizes best across different maze sizes. We further validate these insights on other vision-centric tasks. These findings highlight a "short is long" effect and provide practical guidance for constructing more generalizable SFT datasets for visual reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)において,CoT(Chain-of-Thought)とCoT(Chain-of-Thought)の異なる設計が,一般化可能な視覚推論能力の獲得に与える影響について検討する。
CoTデータ、特に「イメージで考える」ような長いまたは視覚的なCoTは中間的推論を監督するために広く使用されているが、特定のCoT設計がなぜ助けになるのか、どの設計が真に一般化可能な推論をサポートするのかは定かではない。
これを体系的に評価するために、我々は、推論規則が完全に視覚的であり、グリッドサイズによって調整が困難であり、全ての中間ステップを自動生成できる制御迷路解決ベンチマークに焦点を当てた。
標準的なSFT-then-RLパイプラインでQwen2.5-VL-7Bを用いて、言語CoT、グラウンドCoT(空間座標軌道)、ビジュアルCoT(画像操作)の3つの代表的なCoTフォーマットを比較した。
実験の結果,視覚的および長時間のCoTは主に収束を加速するが,最終的な性能天井を持ち上げない,重要な接地ステップのみを含む簡潔なCoTは長いトレースよりも優れる,そして顕著なことに,最小の接地結果のみを保持するCoTは,異なる迷路サイズで最高の一般化を行うことがわかった。
我々は、他の視覚中心のタスクに関するこれらの洞察をさらに検証する。
これらの知見は「短い」効果を強調し、視覚的推論のためにより一般化可能なSFTデータセットを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision [30.155319213322013]
大規模言語モデル(LLM)を強化するために,チェーン・オブ・ソート(CoT)推論が広く採用されている。
We propose Uni-CoT, a Unified Chain-of-Thought framework that allow coherent and grounded multimodal reasoning。
論文 参考訳(メタデータ) (2025-08-07T17:45:17Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [64.43689151961054]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。