論文の概要: A Nash Equilibrium Framework For Training-Free Multimodal Step Verification
- arxiv url: http://arxiv.org/abs/2605.20033v1
- Date: Tue, 19 May 2026 15:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.502717
- Title: A Nash Equilibrium Framework For Training-Free Multimodal Step Verification
- Title(参考訳): 学習不要なマルチモーダルステップ検証のためのナッシュ平衡フレームワーク
- Authors: Rohit Sinha, Kunal Tilaganji, Tanuja Ganu, Nagarajan Natarajan, Amit Sharma, Vineeth N. Balasubramanian,
- Abstract要約: 本研究では,段階的検証を専門審査員間の協調問題として扱う,訓練不要な検証手法を提案する。
提案手法はベースラインモデルよりも2.4%から5.2%の一貫性のある改善を実現している。
- 参考スコア(独自算出の注目度): 36.36755437383068
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models often generate reasoning chains containing subtle errors that lead to incorrect answers. Current verification approaches have notable limitations. Learned critics need extensive labeled data and show inconsistent performance across different tasks. Meanwhile, existing training-free methods simply average scores from different sources, missing a key insight: when these scores disagree, that disagreement itself carries important information about whether a reasoning step is truly valid or not. We propose a training-free verification approach that treats step-wise verification as a coordination problem among specialized judges. We formalize these judges' interaction as a Nash equilibrium game where agreement signals valid steps while disagreement reveals instability. Our method computes equilibrium scores through a closed-form solution, enabling both disagreement-aware filtering and stability-conscious ranking of reasoning steps. Evaluated across six benchmarks, our approach achieves consistent improvements of 2.4% to 5.2% over baseline models and shows competitive performance against learned critics, demonstrating that cross-modal agreement (not just average confidence) provides robust verification signals without task-specific adaptation.
- Abstract(参考訳): マルチモーダルな大言語モデルは、しばしば誤った答えにつながる微妙な誤りを含む推論連鎖を生成する。
現在の検証アプローチには、顕著な制限がある。
学習した批評家は広範囲のラベル付きデータを必要とし、異なるタスクにわたって一貫性のないパフォーマンスを示す。
一方、既存のトレーニングフリーな手法は、単に異なるソースからのスコアを平均化し、重要な洞察を欠いている。
本研究では,段階的検証を専門審査員間の協調問題として扱う,訓練不要な検証手法を提案する。
我々はこれらの審査員の相互作用をナッシュ均衡ゲームとして定式化し、合意が有効なステップを信号し、不一致は不安定性を明らかにする。
提案手法は, 閉形式解を用いて平衡スコアを計算し, 不一致を考慮したフィルタリングと, 推論ステップの安定性を意識したランキングの両立を可能にする。
提案手法は6つのベンチマークで評価され,ベースラインモデルよりも2.4%から5.2%の一貫性のある改善を実現し,学習評論家に対する競争性能を示し,クロスモーダル合意(平均信頼度だけでなく)がタスク固有の適応を伴わない堅牢な検証信号を提供することを示した。
関連論文リスト
- Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution [12.955460962298588]
我々は、生成した推論トレースのみに基づいてステップレベルの信頼性を割り当てる、クローズドソース LLM のためのフレームワークである Stepwise Confidence Attribution (SCA) を紹介する。
SCAは、推論エラーと強く相関する低信頼のステップを確実に特定します。
ステップレベルの信頼を利用して自己補正を導くことで、回答レベルのフィードバックよりも最大で13.5%の修正成功率が向上する。
論文 参考訳(メタデータ) (2026-05-19T00:57:51Z) - Ranking-Aware Calibration for Reliable Multimodal Reinforcement Learning [28.00739954235118]
本稿では,2つの比較信号を用いて信頼度を監督する学習時間フレームワークであるRanding-Aware(RAC)を紹介する。
我々はQwen2.5-VL InternVL-3.5バックボーン上でRACをインスタンス化し、クリーンで破損した入力の下で6つのマルチモーダル推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2026-05-16T13:51:29Z) - Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning [8.024041325202612]
自己整合性を考慮した思考の連鎖(CoT)推論は、複数のサンプル推論パスを集約することで性能を向上させる。
集約不確実性に直接対処するCoT推論のコンフォメーション手順を導入する。
提案手法は,多数決を推理経路よりも重み付けしたスコアアグリゲーションに置き換え,共形リスク制御を用いた棄権規則を校正する。
論文 参考訳(メタデータ) (2026-05-13T20:33:59Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。