論文の概要: Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs
- arxiv url: http://arxiv.org/abs/2503.11790v1
- Date: Fri, 14 Mar 2025 18:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.546101
- Title: Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs
- Title(参考訳): 思考を視覚化する - LMMにおけるロバスト計画を可能にする概念図
- Authors: Nasim Borazjanizadeh, Roei Herzig, Eduard Oks, Trevor Darrell, Rogerio Feris, Leonid Karlinsky,
- Abstract要約: 大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.66267515456075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human reasoning relies on constructing and manipulating mental models-simplified internal representations of situations that we use to understand and solve problems. Conceptual diagrams (for example, sketches drawn by humans to aid reasoning) externalize these mental models, abstracting irrelevant details to efficiently capture relational and spatial information. In contrast, Large Language Models (LLMs) and Large Multimodal Models (LMMs) predominantly reason through textual representations, limiting their effectiveness in complex multi-step combinatorial and planning tasks. In this paper, we propose a zero-shot fully automatic framework that enables LMMs to reason through multiple chains of self-generated intermediate conceptual diagrams, significantly enhancing their combinatorial planning capabilities. Our approach does not require any human initialization beyond a natural language description of the task. It integrates both textual and diagrammatic reasoning within an optimized graph-of-thought inference framework, enhanced by beam search and depth-wise backtracking. Evaluated on multiple challenging PDDL planning domains, our method substantially improves GPT-4o's performance (for example, from 35.5% to 90.2% in Blocksworld). On more difficult planning domains with solution depths up to 40, our approach outperforms even the o1-preview reasoning model (for example, over 13% improvement in Parking). These results highlight the value of conceptual diagrams as a complementary reasoning medium in LMMs.
- Abstract(参考訳): 人間の推論は、精神モデルの構築と操作に依存します。
概念図(例えば、人間によって推論を助けるために描かれたスケッチ)は、これらのメンタルモデルを外部化し、関係性や空間情報を効率的に捉えるために無関係な詳細を抽象化する。
対照的に、Large Language Models (LLM) とLarge Multimodal Models (LMM) は、主にテキスト表現を通じて、複雑な多段階組合せおよび計画タスクにおけるそれらの有効性を制限する。
本稿では,LMMが複数連鎖の自己生成中間概念図を解析できるゼロショット完全自動フレームワークを提案し,その組合せ計画能力を著しく向上させる。
私たちのアプローチでは、タスクの自然言語記述以外に、人間の初期化は必要ありません。
テキスト推論と図式推論の両方を最適化されたグラフ・オブ・思想推論フレームワークに統合し、ビームサーチと深さワイド・バックトラックによって強化される。
複数のPDDL計画領域で評価し、GPT-4oの性能を大幅に向上させる(例えばBlocksworldでは35.5%から90.2%)。
ソリューションの深さが最大40までのより困難なプランニングドメインでは、私たちのアプローチは、o1-preview推論モデル(例えば、Parkingの13%以上の改善)よりも優れています。
これらの結果は,LMMにおける相補的推論媒体としての概念図の価値を強調した。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - ReasonGraph: Visualisation of Reasoning Paths [28.906801344540458]
ReasonGraphは、LLM(Large Language Models)推論プロセスの可視化と解析を行うWebベースのプラットフォームである。
シーケンシャルおよびツリーベースの推論手法をサポートし、主要なLCMプロバイダと50以上の最先端モデルを統合している。
論文 参考訳(メタデータ) (2025-03-06T00:03:55Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context [41.11701706312843]
我々はVisionGraphというベンチマークを設計し、マルチモーダルグラフ理論問題の解法における高度なLMMの能力について検討する。
本稿では、推論過程の論理的精度を高めるために、DPR(Description-Program-Reasoning)連鎖を提案する。
GPT-4V は多段階グラフ推論において Gemini Pro よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T10:42:48Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文 参考訳(メタデータ) (2024-01-18T14:21:56Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。