論文の概要: Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems
- arxiv url: http://arxiv.org/abs/2604.14799v1
- Date: Thu, 16 Apr 2026 09:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.818968
- Title: Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems
- Title(参考訳): 答えるべきでないことを知る:マルチモーダル推論システムにおける留意度の評価
- Authors: Nishanth Madhusudhan, Vikas Yadav, Alexandre Lacoste,
- Abstract要約: テキストのみの設定で研究されてきたが、まだマルチモーダルに探索されていない。
現在のベンチマークでは、未解決性を無視するか、現実的な障害モードを見逃す粗末なメソッドに依存している。
MM-AQAは、2つの軸に沿った変換によって解答不能なインスタンスを解答可能なインスタンスから構築するベンチマークである。
- 参考スコア(独自算出の注目度): 52.83669998269706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective abstention (EA), recognizing evidence insufficiency and refraining from answering, is critical for reliable multimodal systems. Yet existing evaluation paradigms for vision-language models (VLMs) and multi-agent systems (MAS) assume answerability, pushing models to always respond. Abstention has been studied in text-only settings but remains underexplored multimodally; current benchmarks either ignore unanswerability or rely on coarse methods that miss realistic failure modes. We introduce MM-AQA, a benchmark that constructs unanswerable instances from answerable ones via transformations along two axes: visual modality dependency and evidence sufficiency. Evaluating three frontier VLMs spanning closed and open-source models and two MAS architectures across 2079 samples, we find: (1) under standard prompting, VLMs rarely abstain; even simple confidence baselines outperform this setup, (2) MAS improves abstention but introduces an accuracy-abstention trade-off, (3) sequential designs match or exceed iterative variants, suggesting the bottleneck is miscalibration rather than reasoning depth, and (4) models abstain when image or text evidence is absent, but attempt reconciliation with degraded or contradictory evidence. Effective multimodal abstention requires abstention-aware training rather than better prompting or more agents.
- Abstract(参考訳): 効果的な棄権(EA)は、証拠が不十分であることを認識し、回答を控えることであり、信頼性の高いマルチモーダルシステムにとって重要である。
しかし、視覚言語モデル(VLM)とマルチエージェントシステム(MAS)の既存の評価パラダイムは、常に応答するようにモデルを押し付けている。
現在のベンチマークでは未解決性を無視するか、現実的な障害モードを見逃す粗末なメソッドに依存している。
MM-AQAは、視覚的モダリティ依存性とエビデンス充足性という2つの軸に沿った変換を通じて、応答可能なインスタンスから解決不可能なインスタンスを構築するベンチマークである。
クローズドおよびオープンソースモデルにまたがる3つのフロンティアVLMと2079年のサンプルのうち2つのMASアーキテクチャを評価すると、(1)標準プロンプト下では、VLMがほとんど排除されない、(2) 単純な信頼ベースラインでさえも、この設定を上回り、(2) MASは、棄却を改善するが、精度が向上する。
効果的なマルチモーダル禁忌には、より優れたプロンプトや多くのエージェントではなく、禁制的な訓練が必要である。
関連論文リスト
- Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。
多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。
私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文 参考訳(メタデータ) (2026-04-13T20:22:22Z) - PassiveQA: A Three-Action Framework for Epistemically Calibrated Question Answering via Supervised Finetuning [0.0]
不完全情報の下では、モデルが解答、解答、Ask、Abstainを判断しなければならない。
本稿では,教師付き微調整によりモデル行動と情報満足度を整合させる3つのアクション・フレームワークであるPassiveQAを提案する。
提案手法は,構造化情報状態表現,知識グラフ基底コンテキスト,および不足変数と決定推論を明示的にモデル化した微調整プランナーを統合する。
論文 参考訳(メタデータ) (2026-04-06T09:54:16Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Enhancing Foundation VLM Robustness to Missing Modality: Scalable Diffusion for Bi-directional Feature Restoration [40.720288165545476]
本研究では,機能不足を効果的に回復するために,拡張拡散モデルをプラグ可能な中段階トレーニングモジュールとして導入する。
I)動的モダリティゲーティング(動的モダリティゲーティング)は、条件付き特徴を適応的に活用し、セマンティック一貫性のある特徴の生成を制御し、(II)双方向アライメントを実現するためにデュアルエンコーダのセマンティック空間をブリッジするクロスモーダル相互学習機構である。
論文 参考訳(メタデータ) (2026-02-03T06:06:35Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。
我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。
All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文 参考訳(メタデータ) (2025-10-27T17:58:07Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。