論文の概要: Towards Clear Expectations for Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2207.13341v1
- Date: Wed, 27 Jul 2022 07:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:46:18.623917
- Title: Towards Clear Expectations for Uncertainty Estimation
- Title(参考訳): 不確実性推定への明確な期待に向けて
- Authors: Victor Bouvier, Simona Maggio, Alexandre Abraham, L\'eo
Dreyfus-Schmidt
- Abstract要約: 不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
- 参考スコア(独自算出の注目度): 64.20262246029286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If Uncertainty Quantification (UQ) is crucial to achieve trustworthy Machine
Learning (ML), most UQ methods suffer from disparate and inconsistent
evaluation protocols. We claim this inconsistency results from the unclear
requirements the community expects from UQ. This opinion paper offers a new
perspective by specifying those requirements through five downstream tasks
where we expect uncertainty scores to have substantial predictive power. We
design these downstream tasks carefully to reflect real-life usage of ML
models. On an example benchmark of 7 classification datasets, we did not
observe statistical superiority of state-of-the-art intrinsic UQ methods
against simple baselines. We believe that our findings question the very
rationale of why we quantify uncertainty and call for a standardized protocol
for UQ evaluation based on metrics proven to be relevant for the ML
practitioner.
- Abstract(参考訳): 不確実性定量化(UQ)が、信頼できる機械学習(ML)を実現するために重要である場合、ほとんどのUQメソッドは、異なる、一貫性のない評価プロトコルに悩まされる。
この矛盾は、コミュニティがUQに期待する不明確な要求によるものだと我々は主張する。
本意見書は,不確実性スコアが実質的な予測力を持つことを期待する5つの下流タスクを通じて,これらの要件を規定することによって,新たな視点を提供する。
我々はこれらの下流タスクを慎重に設計し、MLモデルの実際の使用状況を反映する。
7つの分類データセットの例では, 単純なベースラインに対して, 最先端の固有UQ手法の統計的優位性を観測しなかった。
我々は、不確実性が定量化される理由の理論的根拠に疑問を呈し、ml実践者にとって有益であることが証明されたメトリクスに基づくuq評価の標準化プロトコルを求める。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Legitimate ground-truth-free metrics for deep uncertainty classification scoring [3.9599054392856483]
製造における不確実性定量化(UQ)手法の使用は依然として限られている。
この制限は、UQ基底真理を欠いたUQ手法を検証するという課題によってさらに悪化する。
本稿では,これらの指標を考察し,理論的に良好であり,実際に不確実な基礎的真理に結びついていることを証明する。
論文 参考訳(メタデータ) (2024-10-30T14:14:32Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Uncertainty Quantification Using Neural Networks for Molecular Property
Prediction [33.34534208450156]
複数の相補的な性能指標を用いて,5つのベンチマークデータセット上で複数の手法を体系的に評価した。
テストしたどのメソッドも他のどのメソッドよりも絶対的に優れているわけではなく、複数のデータセットにまたがって特に信頼性の高いエラーランキングを生成するものもありません。
我々は,既存の技術が他とよく関係しているように見えるものについて,実践的な勧告で結論付けている。
論文 参考訳(メタデータ) (2020-05-20T13:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。