論文の概要: Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA
- arxiv url: http://arxiv.org/abs/2511.11169v1
- Date: Fri, 14 Nov 2025 11:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.551113
- Title: Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA
- Title(参考訳): VQAにおけるマルチエージェントインタラクションによる信頼度校正
- Authors: Ayush Pandey, Jai Bardhan, Ishita Jain, Ramya S Hebbalaguppe, Rohan Raju Dhanakshirur, Lovekesh Vig,
- Abstract要約: 本稿では,視覚質問応答のための議論ベースのマルチエージェントフレームワークAlignVQAを紹介する。
よりキャリブレーションされた特殊エージェントは、より整合性のある信頼性を生み出す。
また、特殊エージェントを微調整するために、アライメントカルと呼ばれる、識別可能なキャリブレーション対応損失関数も導入した。
- 参考スコア(独自算出の注目度): 8.879640496857661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of Visual Question Answering (VQA) and Agentic AI, calibration refers to how closely an AI system's confidence in its answers reflects their actual correctness. This aspect becomes especially important when such systems operate autonomously and must make decisions under visual uncertainty. While modern VQA systems, powered by advanced vision-language models (VLMs), are increasingly used in high-stakes domains like medical diagnostics and autonomous navigation due to their improved accuracy, the reliability of their confidence estimates remains under-examined. Particularly, these systems often produce overconfident responses. To address this, we introduce AlignVQA, a debate-based multi-agent framework, in which diverse specialized VLM -- each following distinct prompting strategies -- generate candidate answers and then engage in two-stage interaction: generalist agents critique, refine and aggregate these proposals. This debate process yields confidence estimates that more accurately reflect the model's true predictive performance. We find that more calibrated specialized agents produce better aligned confidences. Furthermore, we introduce a novel differentiable calibration-aware loss function called aligncal designed to fine-tune the specialized agents by minimizing an upper bound on the calibration error. This objective explicitly improves the fidelity of each agent's confidence estimates. Empirical results across multiple benchmark VQA datasets substantiate the efficacy of our approach, demonstrating substantial reductions in calibration discrepancies. Furthermore, we propose a novel differentiable calibration-aware loss to fine-tune the specialized agents and improve the quality of their individual confidence estimates based on minimising upper bound calibration error.
- Abstract(参考訳): VQA(Visual Question Answering)とエージェントAI(Agentic AI)のコンテキストにおいて、キャリブレーションとは、AIシステムの回答に対する信頼度が実際の正しさをどの程度反映しているかをいう。
このようなシステムが自律的に動作し、視覚的不確実性の下で決定しなければならない場合、この側面は特に重要になる。
高度な視覚言語モデル(VLM)を駆使した現代のVQAシステムは、医療診断や自律ナビゲーションなどの高度な領域において、精度の向上によりますます利用されているが、信頼度推定の信頼性は依然として過小評価されている。
特に、これらのシステムは自信過剰な反応をしばしば生み出す。
これを解決するために、議論ベースの多エージェントフレームワークであるAlignVQAを紹介し、様々な専門的なVLM -- それぞれ異なるプロンプト戦略に従う -- が候補回答を生成し、その後、ジェネラリストエージェントがこれらの提案を批判し、洗練し、集約する2段階のインタラクションを行う。
この議論のプロセスは、モデルの真の予測性能をより正確に反映する信頼の推定をもたらす。
よりキャリブレーションされた特殊エージェントは、より整合性のある信頼性を生み出す。
さらに, キャリブレーション誤差の上限を最小化することにより, 特殊エージェントを微調整するアライメントカルという, 新たなキャリブレーション対応損失関数を導入する。
この目的は、各エージェントの信頼度推定の忠実度を明示的に改善する。
複数のベンチマークVQAデータセットにまたがる実証的な結果は,我々のアプローチの有効性を裏付けるものであり,キャリブレーションの相違が著しく減少した。
さらに,特殊エージェントを微調整し,上界キャリブレーション誤差の最小化に基づく個人信頼度評価の精度を向上させるために,新たなキャリブレーション認識損失を提案する。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Confidence Calibration in Vision-Language-Action Models [2.230383995796716]
信頼できるロボットの振る舞いは、高いレベルのタスク成功と、それが成功する可能性の確実な定量化を必要とする。
本稿では,視覚言語行動(VLA)基礎モデルにおける信頼度校正に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-07-23T10:26:10Z) - Prompt4Trust: A Reinforcement Learning Prompt Augmentation Framework for Clinically-Aligned Confidence Calibration in Multimodal Large Language Models [4.035767214877404]
Prompt4Trustは,MLLMにおける信頼度校正をターゲットとした即時強化のための,最初の強化学習フレームワークである。
従来のキャリブレーション技術とは異なり、Prompt4Trustは安全で信頼性の高い臨床診断に最も重要なキャリブレーションの側面を特に優先している。
実験では,より大きなMLLMに対してゼロショットの一般化が期待できることを示した。
論文 参考訳(メタデータ) (2025-07-12T13:21:10Z) - Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文 参考訳(メタデータ) (2025-02-04T05:14:58Z) - Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。