論文の概要: Conformal Reliability: A New Evaluation Metric for Conditional Generation
- arxiv url: http://arxiv.org/abs/2605.30807v1
- Date: Fri, 29 May 2026 03:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.373923
- Title: Conformal Reliability: A New Evaluation Metric for Conditional Generation
- Title(参考訳): コンフォーマル信頼性:条件生成のための新しい評価基準
- Authors: Yachen Gao, Xinwei Sun, Yikai Wang, Ye Shi, Jingya Wang, Jianfeng Feng, Yanwei Fu,
- Abstract要約: 条件付き生成モデルは、近年、様々な応用において顕著な成功を収めている。
本稿では,信頼度を事前に設定した予測値に基づいて,信頼度という新たな評価指標を提案する。
本稿では, 予測セットの構築と, (ii) 構築した予測セット内の信頼性スコアを正確に最適化するフレームワークであるConformal Reliability(CReL)を紹介する。
- 参考スコア(独自算出の注目度): 62.761166941396844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional generative models have recently achieved remarkable success in various applications. However, a suitable metric for evaluating the reliability of these models, which takes into account their inherent uncertainty, is still lacking. Existing metrics, which typically assess a single output, may fail to capture the variability or potential risks in generation. In this paper, we propose a novel evaluation metric called reliability score based on conformal prediction, which measures the worst-case performance within the prediction set at a pre-specified confidence level. However, computing this score is challenging due to the high-dimensional nature of the output space and the nonconvexity of both the metric function and the prediction set. To efficiently compute this score, we introduce Conformal ReLiability (CReL), a framework that can (i) construct the prediction set with desired coverage; and (ii) accurately optimize the reliability score within the constructed prediction set. We provide theoretical results on coverage and demonstrate empirically that our method produces more informative prediction sets than existing approaches. Experiments on synthetic data and the image-to-text and text-to-image tasks further demonstrate the interpretability of our new metric, and the validity and effectiveness of our computational framework. Source code can be found at https://ggc29.github.io/CReL/.
- Abstract(参考訳): 条件付き生成モデルは近年,様々な応用において顕著な成功を収めている。
しかし、これらのモデルの信頼性を評価するための適切な指標は、その固有の不確実性を考慮しており、まだ不足している。
既存のメトリクスは、通常は単一のアウトプットを評価するが、世代内の変動性や潜在的なリスクを捉えることができない。
本稿では,所定の信頼度で設定した予測における最悪のケース性能を測定する共形予測に基づく信頼性スコアと呼ばれる新しい評価指標を提案する。
しかし、このスコアの計算は、出力空間の高次元の性質と、計量関数と予測集合の両方の非凸性のために困難である。
このスコアを効率的に計算するために,コンフォーマルリライタビリティ(Conformal Reliability, CReL)を導入する。
一 所望のカバレッジで予測セットを構築し、
2)構築した予測セット内の信頼性スコアを正確に最適化する。
提案手法は,既存の手法よりも有意な予測セットを生成することを実証的に実証した。
合成データと画像からテキストへ変換するタスクの実験により、新たなメトリクスの解釈可能性、計算フレームワークの有効性と有効性がさらに示された。
ソースコードはhttps://ggc29.github.io/CReL/で確認できる。
関連論文リスト
- Uncertainty Quantification for Named Entity Recognition via Full-Sequence and Subsequence Conformal Prediction [0.0]
シーケンスラベルに基づくNERモデルを適応して不確実性を考慮した予測セットを生成するための一般的なフレームワークを提案する。
予測セットは、ユーザが指定した信頼度レベルで正しいラベルを含むことが保証された完全文ラベルの集合である。
論文 参考訳(メタデータ) (2026-01-13T18:00:08Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - The Penalized Inverse Probability Measure for Conformal Classification [0.5172964916120902]
この研究は、Pinalized Inverse Probability(PIP)の非整合性スコアと、その正規化バージョンRePIPを導入し、効率性と情報性の両方を共同で最適化する。
この研究は、PIPに基づく共形分類器が、他の非整合性対策と比較して正確に望ましい振る舞いを示し、情報性と効率のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2024-06-13T07:37:16Z) - SURE: SUrvey REcipes for building reliable and robust deep networks [12.268921703825258]
本稿では,深層ニューラルネットワークにおける不確実性推定手法を再検討し,信頼性を高めるために一連の手法を統合する。
我々は,不確実性推定の有効性を示す重要なテストベッドである故障予測のベンチマークに対して,SUREを厳格に評価する。
データ破損、ラベルノイズ、長い尾のクラス分布といった現実世界の課題に適用した場合、SUREは顕著な堅牢性を示し、現在の最先端の特殊手法と同等あるいは同等な結果をもたらす。
論文 参考訳(メタデータ) (2024-03-01T13:58:19Z) - Non-Exchangeable Conformal Language Generation with Nearest Neighbors [12.790082627386482]
非交換性共形核サンプリングは、近接する隣人に基づく生成への共形予測フレームワークの新たな拡張である。
本手法は,任意のモデルに対して,余分なトレーニングを伴わずにポストホックで使用することができ,統計的保証を備えたトークンレベルの校正予測セットを提供する。
論文 参考訳(メタデータ) (2024-02-01T16:04:04Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。