論文の概要: Knowing When to Answer: Adaptive Confidence Refinement for Reliable Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2602.04924v1
- Date: Wed, 04 Feb 2026 08:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.545983
- Title: Knowing When to Answer: Adaptive Confidence Refinement for Reliable Audio-Visual Question Answering
- Title(参考訳): 答える時を知る:信頼性の高い音声-ビジュアル質問応答のための適応的信頼回復
- Authors: Dinh Phu Tran, Jihoon Jeong, Saad Wazir, Seongah Kim, Thao Do, Cem Subakan, Daeyoung Kim,
- Abstract要約: 我々は,textitReliable Audio-Visual Question Answering (mathcalR$-AVQA) に公式な問題を定式化する。
本稿では,$mathcalR$-AVQAの性能を高める軽量な手法であるAdaptive Confidence Refinement (ACR)を提案する。
- 参考スコア(独自算出の注目度): 15.39457034915546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a formal problem formulation for \textit{Reliable} Audio-Visual Question Answering ($\mathcal{R}$-AVQA), where we prefer abstention over answering incorrectly. While recent AVQA models have high accuracy, their ability to identify when they are likely wrong and their consequent abstention from answering remain underexplored areas of research. To fill this gap, we explore several approaches and then propose Adaptive Confidence Refinement (ACR), a lightweight method to further enhance the performance of $\mathcal{R}$-AVQA. Our key insight is that the Maximum Softmax Probability (MSP) is Bayes-optimal only under strong calibration, a condition usually not met in deep neural networks, particularly in multimodal models. Instead of replacing MSP, our ACR maintains it as a primary confidence signal and applies input-adaptive residual corrections when MSP is deemed unreliable. ACR introduces two learned heads: i) a Residual Risk Head that predicts low-magnitude correctness residuals that MSP does not capture, and ii) a Confidence Gating Head to determine MSP trustworthiness. Our experiments and theoretical analysis show that ACR consistently outperforms existing methods on in- and out-of-disrtibution, and data bias settings across three different AVQA architectures, establishing a solid foundation for $\mathcal{R}$-AVQA task. The code and checkpoints will be available upon acceptance \href{https://github.com/PhuTran1005/R-AVQA}{at here}
- Abstract(参考訳): 本稿では, 音声-視覚的質問回答($-AVQA)の形式的問題定式化について述べる。
近年のAVQAモデルは精度が高いが、それがいつ間違っているかを特定する能力と、それに伴う回答の棄権は、まだ未調査の研究領域である。
このギャップを埋めるために、我々はいくつかのアプローチを検討し、次に、$\mathcal{R}$-AVQAの性能をさらに向上させる軽量な手法であるAdaptive Confidence Refinement (ACR)を提案する。
我々の重要な洞察は、最大ソフトマックス確率(MSP)は強いキャリブレーションの下でのみベイズ最適であり、これはディープニューラルネットワーク、特にマルチモーダルモデルでは満たされない条件である。
MSPを置き換える代わりに、我々のACRは一次信頼信号として維持し、MSPが信頼できないと判断された場合に入力適応残差補正を適用します。
ACRは2つの学習された頭を導入する。
一 MSPが捉えない低マグニチュードの正しさを予知する残留リスクヘッド
二 MRPの信頼性を決定するための信任ゲーティングヘッド
実験と理論解析により,ACRは,3つの異なるAVQAアーキテクチャにまたがる既存手法,およびデータバイアス設定を一貫して上回り,$\mathcal{R}$-AVQAタスクの確固たる基盤を確立した。
コードとチェックポイントは、recepted \href{https://github.com/PhuTran1005/R-AVQA}{at here} で利用可能になる。
関連論文リスト
- LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA [8.879640496857661]
本稿では,視覚質問応答のための議論ベースのマルチエージェントフレームワークAlignVQAを紹介する。
よりキャリブレーションされた特殊エージェントは、より整合性のある信頼性を生み出す。
また、特殊エージェントを微調整するために、アライメントカルと呼ばれる、識別可能なキャリブレーション対応損失関数も導入した。
論文 参考訳(メタデータ) (2025-11-14T11:08:21Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A [0.6144680854063939]
チャット用に微調整された15の大規模言語モデル(LLM)について検討する。
最大ソフトマックス確率 (MSPs) は, 多重選択Q&Aにおいて常に誤校正される。
この仮説は、基礎となるQ&Aタスクでよく機能するモデルに対して成り立つことを示す。
論文 参考訳(メタデータ) (2024-02-20T18:24:47Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。