論文の概要: Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.06884v1
- Date: Sat, 08 Feb 2025 21:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:47.782762
- Title: Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models
- Title(参考訳): 大規模言語と視覚言語モデルにおける適応的リスク管理のためのコンフォーマルな回避策の学習
- Authors: Sina Tayebati, Divake Kumar, Nastaran Darabi, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi,
- Abstract要約: 大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
- 参考スコア(独自算出の注目度): 3.958317527488534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language and Vision-Language Models (LLMs/VLMs) are increasingly used in safety-critical applications, yet their opaque decision-making complicates risk assessment and reliability. Uncertainty quantification (UQ) helps assess prediction confidence and enables abstention when uncertainty is high. Conformal prediction (CP), a leading UQ method, provides statistical guarantees but relies on static thresholds, which fail to adapt to task complexity and evolving data distributions, leading to suboptimal trade-offs in accuracy, coverage, and informativeness. To address this, we propose learnable conformal abstention, integrating reinforcement learning (RL) with CP to optimize abstention thresholds dynamically. By treating CP thresholds as adaptive actions, our approach balances multiple objectives, minimizing prediction set size while maintaining reliable coverage. Extensive evaluations across diverse LLM/VLM benchmarks show our method outperforms Least Ambiguous Classifiers (LAC) and Adaptive Prediction Sets (APS), improving accuracy by up to 3.2%, boosting AUROC for hallucination detection by 22.19%, enhancing uncertainty-guided selective generation (AUARC) by 21.17%, and reducing calibration error by 70%-85%. These improvements hold across multiple models and datasets while consistently meeting the 90% coverage target, establishing our approach as a more effective and flexible solution for reliable decision-making in safety-critical applications. The code is available at: {https://github.com/sinatayebati/vlm-uncertainty}.
- Abstract(参考訳): 大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われているが、その不透明な決定はリスク評価と信頼性を複雑にしている。
不確実性定量化(UQ)は、予測信頼度を評価し、不確実性が高い場合の回避を可能にする。
コンフォーマル予測(CP)は、統計的な保証を提供するが、静的しきい値に依存しており、タスクの複雑さやデータ分布の進化に適応できず、精度、カバレッジ、情報性の亜最適トレードオフにつながる。
そこで本研究では、CPと強化学習(RL)を統合して、吸収閾値を動的に最適化することを提案する。
CP閾値を適応的行動として扱うことにより,提案手法は複数の目標のバランスを保ち,信頼性の高いカバレッジを維持しつつ予測セットのサイズを最小化する。
LLM/VLMベンチマークの大規模評価では,Last Ambiguous Classifiers (LAC) とAdaptive Prediction Sets (APS) が優れ,精度が3.2%向上し,幻覚検出のためのAUROCが22.19%向上し,不確実性誘導選択生成(AUARC)が21.17%向上し,キャリブレーション誤差が70%~85%低減した。
これらの改善は、安全クリティカルなアプリケーションにおける信頼性の高い意思決定のための、より効果的で柔軟なソリューションとして、90%のカバレッジ目標を一貫して満たしながら、複数のモデルやデータセットを横断的に保持します。
コードは以下の通り: {https://github.com/sinatayebati/vlm-uncertainty}。
関連論文リスト
- Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception [0.4124847249415279]
安全クリティカルな認識システムは、安全を維持するために確実な不確実性定量化と原則化された禁制機構を必要とする。
本稿では、統計的に保証された不確実性推定を提供するとともに、選択的な予測シナリオを実現するための新しい二重閾値整合化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:45:31Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Benchmarking Large Language Model Uncertainty for Prompt Optimization [4.151658495779136]
本稿では,不確実性指標を評価するためのベンチマークデータセットを提案する。
現在のメトリクスは、正当性不確実性ではなく、出力の信頼性と多様性を反映したアンサー不確実性とより一致していることを示します。
論文 参考訳(メタデータ) (2024-09-16T07:13:30Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。