論文の概要: CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation
- arxiv url: http://arxiv.org/abs/2601.08010v1
- Date: Mon, 12 Jan 2026 21:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.953082
- Title: CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation
- Title(参考訳): CASHEW:反復軌道アグリゲーションによるマルチモーダル推論の安定化
- Authors: Chaoyu Li, Deeparghya Dutta Barua, Fei Tao, Pooyan Fazli,
- Abstract要約: 視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
- 参考スコア(独自算出の注目度): 6.356820150960838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models achieve strong performance across a wide range of multimodal understanding and reasoning tasks, yet their multi-step reasoning remains unstable. Repeated sampling over the same input often produces divergent reasoning trajectories and inconsistent final predictions. To address this, we introduce two complementary approaches inspired by test-time scaling: (1) CASHEW, an inference-time framework that stabilizes reasoning by iteratively aggregating multiple candidate trajectories into higher-quality reasoning traces, with explicit visual verification filtering hallucinated steps and grounding reasoning in visual evidence, and (2) CASHEW-RL, a learned variant that internalizes this aggregation behavior within a single model. CASHEW-RL is trained using Group Sequence Policy Optimization (GSPO) with a composite reward that encourages correct answers grounded in minimal yet sufficient visual evidence, while adaptively allocating reasoning effort based on task difficulty. This training objective enables robust self-aggregation at inference. Extensive experiments on 13 image understanding, video understanding, and video reasoning benchmarks show significant performance improvements, including gains of up to +23.6 percentage points on ScienceQA and +8.1 percentage points on EgoSchema.
- Abstract(参考訳): 視覚言語モデルは多モーダル理解および推論タスクの幅広い範囲で強い性能を達成するが、その多段階推論は不安定である。
同じ入力に対する繰り返しサンプリングは、しばしば分岐推論軌道と矛盾しない最終予測を生成する。
そこで本研究では,テストタイムスケーリングに着想を得た2つの補完的アプローチを提案する。(1)複数の候補軌跡を高次推論トレースに繰り返し集約することで推論を安定化する推論時フレームワークであるCASHEWと,(2)視覚的モデル内でこの凝集挙動を内包する学習変種であるCASHEW-RLである。
CASHEW-RLはGSPO(Group Sequence Policy Optimization)を用いてトレーニングされており、タスクの難易度に基づいて推論の労力を適応的に割り当てながら、最小かつ十分な視覚的証拠に基づく正しい回答を促進する。
このトレーニングの目的は、推論時に堅牢な自己集約を可能にする。
13の画像理解、ビデオ理解、ビデオ推論のベンチマークに関する大規模な実験は、ScienceQAの最大+23.6ポイント、EgoSchemaの+8.1ポイントなど、大幅なパフォーマンス向上を示している。
関連論文リスト
- Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。