論文の概要: VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism
- arxiv url: http://arxiv.org/abs/2506.08691v1
- Date: Tue, 10 Jun 2025 11:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.361601
- Title: VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism
- Title(参考訳): VReST:木探索と自己回帰機構による大規模視覚言語モデルにおける推論の強化
- Authors: Congzhi Zhang, Jiawei Peng, Zhenglin Wang, Yilong Lai, Haowen Sun, Heng Chang, Fei Ma, Weijiang Yu,
- Abstract要約: 我々は,モンテカルロ木探索と自己回帰機構を用いて,LVLMにおける推論を強化するトレーニングフリーアプローチであるVReSTを提案する。
VReSTは現在のプロンプトメソッドを超え、3つのマルチモーダル数学的推論ベンチマークで最先端のパフォーマンスを確保する。
- 参考スコア(独自算出の注目度): 13.759089543987473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown exceptional performance in multimodal tasks, but their effectiveness in complex visual reasoning is still constrained, especially when employing Chain-of-Thought prompting techniques. In this paper, we propose VReST, a novel training-free approach that enhances Reasoning in LVLMs through Monte Carlo Tree Search and Self-Reward mechanisms. VReST meticulously traverses the reasoning landscape by establishing a search tree, where each node encapsulates a reasoning step, and each path delineates a comprehensive reasoning sequence. Our innovative multimodal Self-Reward mechanism assesses the quality of reasoning steps by integrating the utility of sub-questions, answer correctness, and the relevance of vision-language clues, all without the need for additional models. VReST surpasses current prompting methods and secures state-of-the-art performance across three multimodal mathematical reasoning benchmarks. Furthermore, it substantiates the efficacy of test-time scaling laws in multimodal tasks, offering a promising direction for future research.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて例外的な性能を示すが、複雑な視覚的推論におけるそれらの効果は、特にChain-of-Thoughtプロンプト技術を用いる場合、依然として制限されている。
本稿では,モンテカルロ木探索と自己回帰機構を用いて,LVLMにおける推論を強化する新しいトレーニングフリーアプローチであるVReSTを提案する。
VReSTは、各ノードが推論ステップをカプセル化し、各パスが包括的な推論シーケンスを記述しているサーチツリーを確立することによって、推論ランドスケープを慎重に横断する。
我々の革新的マルチモーダル・セルフ・リワード機構は、サブクエストの有用性、答えの正しさ、および視覚言語による手がかりの関連性を統合することで推論ステップの質を評価する。
VReSTは現在のプロンプトメソッドを超え、3つのマルチモーダル数学的推論ベンチマークで最先端のパフォーマンスを確保する。
さらに、マルチモーダルタスクにおけるテスト時間スケーリング法則の有効性を実証し、将来の研究に有望な方向性を提供する。
関連論文リスト
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文 参考訳(メタデータ) (2025-03-16T18:39:13Z) - SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。
我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。
次に,2段階の推論手法を用いて推論誘導応答を導出する。
これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文 参考訳(メタデータ) (2025-03-03T17:24:42Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。