論文の概要: Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction
- arxiv url: http://arxiv.org/abs/2504.17671v2
- Date: Fri, 25 Apr 2025 09:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.443971
- Title: Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction
- Title(参考訳): 帰納的等角予測に基づく大規模視覚言語モデルにおける予測セットのデータ駆動校正
- Authors: Yuanchang Ye, Weiyan Wen,
- Abstract要約: 動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the critical challenge of hallucination mitigation in Large Vision-Language Models (LVLMs) for Visual Question Answering (VQA) tasks through a Split Conformal Prediction (SCP) framework. While LVLMs excel in multi-modal reasoning, their outputs often exhibit hallucinated content with high confidence, posing risks in safety-critical applications. We propose a model-agnostic uncertainty quantification method that integrates dynamic threshold calibration and cross-modal consistency verification. By partitioning data into calibration and test sets, the framework computes nonconformity scores to construct prediction sets with statistical guarantees under user-defined risk levels ($\alpha$). Key innovations include: (1) rigorous control of \textbf{marginal coverage} to ensure empirical error rates remain strictly below $\alpha$; (2) dynamic adjustment of prediction set sizes inversely with $\alpha$, filtering low-confidence outputs; (3) elimination of prior distribution assumptions and retraining requirements. Evaluations on benchmarks (ScienceQA, MMMU) with eight LVLMs demonstrate that SCP enforces theoretical guarantees across all $\alpha$ values. The framework achieves stable performance across varying calibration-to-test split ratios, underscoring its robustness for real-world deployment in healthcare, autonomous systems, and other safety-sensitive domains. This work bridges the gap between theoretical reliability and practical applicability in multi-modal AI systems, offering a scalable solution for hallucination detection and uncertainty-aware decision-making.
- Abstract(参考訳): 本研究では,視覚質問応答(VQA)タスクに対するLVLM(Large Vision-Language Models)における幻覚緩和の重要な課題を,分割整形予測(SCP)フレームワークを用いて解決する。
LVLMはマルチモーダル推論において優れているが、その出力は高信頼の幻覚コンテンツをしばしば示し、安全クリティカルな応用のリスクを生じさせる。
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
データをキャリブレーションとテストセットに分割することにより、非整合性スコアを計算し、ユーザ定義リスクレベル(\alpha$)の下で統計的保証付き予測セットを構築する。
1) 経験的誤差率の厳密な制御が$\alpha$以下であることを保証するため、(2) 予測セットのサイズの動的調整を$\alpha$で逆向きに行い、低信頼出力をフィルタリングし、(3) 事前分布仮定の排除と再訓練要求を行う。
8つのLVLMによるベンチマーク(ScienceQA, MMMU)の評価は、SCPがすべての$\alpha$値の理論的保証を強制していることを示している。
このフレームワークは、さまざまなキャリブレーションとテストの分割比率で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的なデプロイの堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - FAIR-SIGHT: Fairness Assurance in Image Recognition via Simultaneous Conformal Thresholding and Dynamic Output Repair [4.825037489691159]
本稿では,コンフォメーション予測と動的出力修復機構を組み合わせることで,コンピュータビジョンシステムの公平性を確保するためのポストホックフレームワークを提案する。
提案手法は,予測誤差と公平性違反を同時に評価する,公平性を考慮した非整合性スコアを算出する。
新しい画像の非整合スコアがしきい値を超えると、FAIR-SIGHTは分類のためのロジットシフトや検出のための信頼度補正など、対象とする修正調整を実行する。
論文 参考訳(メタデータ) (2025-04-10T02:23:06Z) - Risk-Calibrated Affective Speech Recognition via Conformal Coverage Guarantees: A Stochastic Calibrative Framework for Emergent Uncertainty Quantification [0.0]
極端なドライバーの感情から生じる交通安全上の課題は、信頼できる感情認識システムに対する緊急の必要性を浮き彫りにする。
音声の感情認識における従来のディープラーニングアプローチは、過度に適合し、不適格な信頼推定に苦しむ。
本稿では,Mel-spectrogram 機能を利用したコンフォーマル予測(CP)とリスク制御を統合したフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models [46.56041622514975]
リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介する。
TRONは、2つのユーザ特定リスクレベルに制限された所望のエラー率を達成する。
重複予測セットは適応性を維持しつつ、異なるリスクレベルのリスク評価に対してより効率的で安定である。
論文 参考訳(メタデータ) (2024-10-10T17:50:42Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。