論文の概要: On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks
- arxiv url: http://arxiv.org/abs/2602.15460v1
- Date: Tue, 17 Feb 2026 09:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.025362
- Title: On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks
- Title(参考訳): 簡易視覚計画課題のためのマルチモーダルLLMにおける推論のアウト・オブ・ディストリビューション一般化について
- Authors: Yannic Neuhaus, Nicolas Flammarion, Matthias Hein, Francesco Croce,
- Abstract要約: 簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 56.98385132295952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating reasoning in large language models and large vision-language models has recently led to significant improvement of their capabilities. However, the generalization of reasoning models is still vaguely defined and poorly understood. In this work, we present an evaluation framework to rigorously examine how well chain-of-thought (CoT) approaches generalize on a simple planning task. Specifically, we consider a grid-based navigation task in which a model is provided with a map and must output a sequence of moves that guides a player from a start position to a goal while avoiding obstacles. The versatility of the task and its data allows us to fine-tune model variants using different input representations (visual and textual) and CoT reasoning strategies, and systematically evaluate them under both in-distribution (ID) and out-of-distribution (OOD) test conditions. Our experiments show that, while CoT reasoning improves in-distribution generalization across all representations, out-of-distribution generalization (e.g., to larger maps) remains very limited in most cases when controlling for trivial matches with the ID data. Surprisingly, we find that reasoning traces which combine multiple text formats yield the best (and non-trivial) OOD generalization. Finally, purely text-based models consistently outperform those utilizing image-based inputs, including a recently proposed approach relying on latent space reasoning.
- Abstract(参考訳): 大規模言語モデルと大規模視覚言語モデルにおける推論の統合は、最近、その能力を大幅に改善した。
しかし、推論モデルの一般化はいまだあいまいに定義されており、理解されていない。
本研究では,簡単な計画課題に対して,チェーン・オブ・ソート(CoT)アプローチがいかに一般化するかを厳密に検証するための評価フレームワークを提案する。
具体的には,モデルに地図を付与するグリッドベースのナビゲーションタスクについて検討し,障害を避けつつ,開始位置からゴールへ誘導する一連の動作を出力しなければならない。
タスクとそのデータの汎用性により、異なる入力表現(視覚的およびテキスト的)とCoT推論戦略を用いて微調整モデル変種を作成でき、それらを系統的に分布内(ID)および分布外(OOD)テスト条件下で評価することができる。
実験の結果,CoT推論はすべての表現における分布内一般化を改善するが,分布外一般化(例えば,より大きな写像)は,IDデータとの自明な一致を制御しているほとんどの場合,非常に限定的であることがわかった。
驚くべきことに、複数のテキスト形式を組み合わせた推論トレースは、最高の(かつ非自明な)OOD一般化をもたらす。
最後に、純粋にテキストベースのモデルは、遅延空間推論に依存する最近提案されたアプローチを含め、画像ベースの入力を利用するモデルよりも一貫して優れている。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。