論文の概要: VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
- arxiv url: http://arxiv.org/abs/2504.09130v1
- Date: Sat, 12 Apr 2025 08:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 13:32:38.564591
- Title: VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
- Title(参考訳): VisuoThink:マルチモーダルツリーサーチによるLVLM推論の強化
- Authors: Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu,
- Abstract要約: VisuoThinkは、視覚空間と言語ドメインをシームレスに統合する新しいフレームワークである。
プログレッシブなビジュアルテキスト推論を可能にし、ルックアヘッドツリーサーチによるテストタイムスケーリングを組み込む。
- 参考スコア(独自算出の注目度): 89.43196232124883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models have showcased remarkable capabilities. However, they often falter when confronted with complex reasoning tasks that humans typically address through visual aids and deliberate, step-by-step thinking. While existing methods have explored text-based slow thinking or rudimentary visual assistance, they fall short of capturing the intricate, interleaved nature of human visual-verbal reasoning processes. To overcome these limitations and inspired by the mechanisms of slow thinking in human cognition, we introduce VisuoThink, a novel framework that seamlessly integrates visuospatial and linguistic domains. VisuoThink facilitates multimodal slow thinking by enabling progressive visual-textual reasoning and incorporates test-time scaling through look-ahead tree search. Extensive experiments demonstrate that VisuoThink significantly enhances reasoning capabilities via inference-time scaling, even without fine-tuning, achieving state-of-the-art performance in tasks involving geometry and spatial reasoning.
- Abstract(参考訳): 近年の大型ビジョンランゲージモデルの進歩は目覚ましい能力を示した。
しかし、視覚的援助や意図的なステップバイステップ思考を通じて人間が対処する複雑な推論タスクに直面した時に、しばしば混乱する。
既存の手法では、テキストベースのスロー思考や初歩的な視覚支援を探索しているが、人間の視覚言語推論プロセスの複雑でインターリーブな性質を捉えていない。
これらの制限を克服し、人間の認知におけるスローシンキングのメカニズムに触発され、視覚空間的および言語的ドメインをシームレスに統合する新しいフレームワークであるVisuoThinkを紹介した。
VisuoThinkは、プログレッシブなビジュアルテキスト推論を可能にすることで、マルチモーダルなスロー思考を促進し、ルックアヘッドツリーサーチによるテストタイムスケーリングを取り入れている。
大規模な実験により、ViusioThinkは微調整なしでも推論時間スケーリングによる推論能力を大幅に向上し、幾何学的推論や空間的推論を含むタスクにおいて最先端のパフォーマンスを達成することが示されている。
関連論文リスト
- Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs [22.46006112029019]
メンタル・ヴィジュアライゼーションは人間にとって重要な認知能力であり、空間ナビゲーション、物理的な軌道予測、想像的シミュレーションによる複雑な視覚問題の解決などの能力をサポートする。
マルチモーダル大規模言語モデル (MLLM) の心的可視化能力を評価するために, 慎重に構築された4つのパズルを用いて, ハイパーファンタジア(Hyperphantasia)を提案する。
我々の最先端モデルに対する包括的評価は、人間とMLLMの性能の間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2025-07-16T05:54:37Z) - Reasoning in machine vision: learning to think fast and slow [10.430190333487957]
推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。
マシンインテリジェンスは、推論時にソリューションを動的に洗練する能力がないため、トレーニングデータに縛られている。
本稿では,思考時間の増加に伴う性能向上を実現することにより,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-27T10:03:05Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Visual Abstract Thinking Empowers Multimodal Reasoning [11.70318717106245]
画像は通常、テキストよりもリッチな詳細を伝達するが、多モード推論性能を低下させる冗長な情報を含むことが多い。
この認知戦略に触発されて、視覚的抽象思考(VAT)を導入する。
VATは、明示的な言語思考や精巧なガイダンスではなく、視覚的に抽象的なマルチモーダル大言語モデル(MLLM)を推進します。
実験の結果,VATはGPT-4oベースラインよりも平均17%向上することがわかった。
論文 参考訳(メタデータ) (2025-05-26T16:06:35Z) - DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Think More, Hallucinate Less: Mitigating Hallucinations via Dual Process of Fast and Slow Thinking [124.69672273754144]
HaluSearchは、ツリー検索ベースのアルゴリズムを組み込んだ新しいフレームワークである。
テキスト生成をステップバイステップの推論プロセスとしてフレーム化する。
認知科学における二重プロセス理論に着想を得た階層的思考システムスイッチ機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T15:36:50Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。