論文の概要: Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions
- arxiv url: http://arxiv.org/abs/2506.08927v1
- Date: Tue, 10 Jun 2025 15:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.770038
- Title: Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions
- Title(参考訳): Socratic-MCTS: 正しい質問によるテスト時間ビジュアル推論
- Authors: David Acuna, Ximing Lu, Jaehun Jung, Hyunwoo Kim, Amlan Kar, Sanja Fidler, Yejin Choi,
- Abstract要約: フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
- 参考スコア(独自算出の注目度): 100.41062461003389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in vision-language models (VLMs) has centered around the possibility of equipping them with implicit long-form chain-of-thought reasoning -- akin to the success observed in language models -- via distillation and reinforcement learning. But what about the non-reasoning models already trained and deployed across the internet? Should we simply abandon them, or is there hope for a search mechanism that can elicit hidden knowledge and induce long reasoning traces -- without any additional training or supervision? In this paper, we explore this possibility using a Monte Carlo Tree Search (MCTS)-inspired algorithm, which injects subquestion-subanswer pairs into the model's output stream. We show that framing reasoning as a search process -- where subquestions act as latent decisions within a broader inference trajectory -- helps the model "connect the dots" between fragmented knowledge and produce extended reasoning traces in non-reasoning models. We evaluate our method across three benchmarks and observe consistent improvements. Notably, our approach yields a 2% overall improvement on MMMU-PRO, including a significant 9% gain in Liberal Arts.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の研究は、蒸留と強化学習を通じて、言語モデルで観察される成功に類似した暗黙のロングフォーム・チェーン・オブ・シークレット推論を、それらに装備する可能性に焦点を当てている。
しかし、すでにトレーニングされ、インターネットに展開されている非理性モデルはどうだろう?
単にそれらを捨てるべきなのか、それとも、隠れた知識を導き出し、長い推論の痕跡を ― 追加のトレーニングや監督なしに ― 引き起こせるような検索メカニズムが期待できるのだろうか?
本稿では,モンテカルロ木探索(MCTS)にインスパイアされたアルゴリズムを用いて,モデルの出力ストリームにサブクエスト-サブアンサーペアを注入する可能性について検討する。
より広い推論軌道における潜在的な決定として機能する探索過程としてのフレーミング推論は、断片化された知識間で「ドットを接続」し、非推論モデルにおいて拡張された推論トレースを生成するのに役立つことを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
特にMMMU-PROでは,リベラルアーツにおいて9%の上昇率を含む2%の総合的な改善が得られた。
関連論文リスト
- ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。
自己批判型反復推論(SiGIR)を提案する。
SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文 参考訳(メタデータ) (2025-05-25T12:10:24Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。