論文の概要: Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs
- arxiv url: http://arxiv.org/abs/2503.11790v1
- Date: Fri, 14 Mar 2025 18:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:53.320731
- Title: Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs
- Title(参考訳): 思考を視覚化する - LMMにおけるロバスト計画を可能にする概念図
- Authors: Nasim Borazjanizadeh, Roei Herzig, Eduard Oks, Trevor Darrell, Rogerio Feris, Leonid Karlinsky,
- Abstract要約: 大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.66267515456075
- License:
- Abstract: Human reasoning relies on constructing and manipulating mental models-simplified internal representations of situations that we use to understand and solve problems. Conceptual diagrams (for example, sketches drawn by humans to aid reasoning) externalize these mental models, abstracting irrelevant details to efficiently capture relational and spatial information. In contrast, Large Language Models (LLMs) and Large Multimodal Models (LMMs) predominantly reason through textual representations, limiting their effectiveness in complex multi-step combinatorial and planning tasks. In this paper, we propose a zero-shot fully automatic framework that enables LMMs to reason through multiple chains of self-generated intermediate conceptual diagrams, significantly enhancing their combinatorial planning capabilities. Our approach does not require any human initialization beyond a natural language description of the task. It integrates both textual and diagrammatic reasoning within an optimized graph-of-thought inference framework, enhanced by beam search and depth-wise backtracking. Evaluated on multiple challenging PDDL planning domains, our method substantially improves GPT-4o's performance (for example, from 35.5% to 90.2% in Blocksworld). On more difficult planning domains with solution depths up to 40, our approach outperforms even the o1-preview reasoning model (for example, over 13% improvement in Parking). These results highlight the value of conceptual diagrams as a complementary reasoning medium in LMMs.
- Abstract(参考訳): 人間の推論は、精神モデルの構築と操作に依存します。
概念図(例えば、人間によって推論を助けるために描かれたスケッチ)は、これらのメンタルモデルを外部化し、関係性や空間情報を効率的に捉えるために無関係な詳細を抽象化する。
対照的に、Large Language Models (LLM) とLarge Multimodal Models (LMM) は、主にテキスト表現を通じて、複雑な多段階組合せおよび計画タスクにおけるそれらの有効性を制限する。
本稿では,LMMが複数連鎖の自己生成中間概念図を解析できるゼロショット完全自動フレームワークを提案し,その組合せ計画能力を著しく向上させる。
私たちのアプローチでは、タスクの自然言語記述以外に、人間の初期化は必要ありません。
テキスト推論と図式推論の両方を最適化されたグラフ・オブ・思想推論フレームワークに統合し、ビームサーチと深さワイド・バックトラックによって強化される。
複数のPDDL計画領域で評価し、GPT-4oの性能を大幅に向上させる(例えばBlocksworldでは35.5%から90.2%)。
ソリューションの深さが最大40までのより困難なプランニングドメインでは、私たちのアプローチは、o1-preview推論モデル(例えば、Parkingの13%以上の改善)よりも優れています。
これらの結果は,LMMにおける相補的推論媒体としての概念図の価値を強調した。
関連論文リスト
- Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。
本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context [41.11701706312843]
我々はVisionGraphというベンチマークを設計し、マルチモーダルグラフ理論問題の解法における高度なLMMの能力について検討する。
本稿では、推論過程の論理的精度を高めるために、DPR(Description-Program-Reasoning)連鎖を提案する。
GPT-4V は多段階グラフ推論において Gemini Pro よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T10:42:48Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。