Fugu-MT 論文翻訳(概要): Towards Clear Expectations for Uncertainty Estimation

論文の概要: Towards Clear Expectations for Uncertainty Estimation

arxiv url: http://arxiv.org/abs/2207.13341v1
Date: Wed, 27 Jul 2022 07:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-28 13:46:18.623917
Title: Towards Clear Expectations for Uncertainty Estimation
Title（参考訳）: 不確実性推定への明確な期待に向けて
Authors: Victor Bouvier, Simona Maggio, Alexandre Abraham, L\'eo Dreyfus-Schmidt
Abstract要約: 不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠であるほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
参考スコア（独自算出の注目度）: 64.20262246029286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: If Uncertainty Quantification (UQ) is crucial to achieve trustworthy Machine Learning (ML), most UQ methods suffer from disparate and inconsistent evaluation protocols. We claim this inconsistency results from the unclear requirements the community expects from UQ. This opinion paper offers a new perspective by specifying those requirements through five downstream tasks where we expect uncertainty scores to have substantial predictive power. We design these downstream tasks carefully to reflect real-life usage of ML models. On an example benchmark of 7 classification datasets, we did not observe statistical superiority of state-of-the-art intrinsic UQ methods against simple baselines. We believe that our findings question the very rationale of why we quantify uncertainty and call for a standardized protocol for UQ evaluation based on metrics proven to be relevant for the ML practitioner.
Abstract（参考訳）: 不確実性定量化(UQ)が、信頼できる機械学習(ML)を実現するために重要である場合、ほとんどのUQメソッドは、異なる、一貫性のない評価プロトコルに悩まされる。この矛盾は、コミュニティがUQに期待する不明確な要求によるものだと我々は主張する。本意見書は,不確実性スコアが実質的な予測力を持つことを期待する5つの下流タスクを通じて,これらの要件を規定することによって,新たな視点を提供する。我々はこれらの下流タスクを慎重に設計し、MLモデルの実際の使用状況を反映する。 7つの分類データセットの例では, 単純なベースラインに対して, 最先端の固有UQ手法の統計的優位性を観測しなかった。我々は、不確実性が定量化される理由の理論的根拠に疑問を呈し、ml実践者にとって有益であることが証明されたメトリクスに基づくuq評価の標準化プロトコルを求める。

関連論文リスト

The Consistency Hypothesis in Uncertainty Quantification for Large Language Models [22.60039074743706]
モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定について検討する。信頼度推定のための世代間類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
論文参考訳（メタデータ） (2025-06-27T01:53:15Z)
COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results [10.551985027162576]
提案手法は,特定のUQ法の性能を膨らませることで,UQ評価に偏りが生じることを示す。語彙ベースと埋め込みベースのメトリクスからLCM-as-a-judgeアプローチまで,7つの正当性関数を評価した。
論文参考訳（メタデータ） (2025-04-18T13:13:42Z)
CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。 LLMの既存の不確実性定量化(UQ)法は、主に応答性よりも即時的であり、高い計算コストを発生させる。応答型UQフレームワークであるCoT-UQを提案する。このフレームワークは,Chain-of-Thought (CoT) を通じて LLM 固有の推論機能を UQ プロセスに統合する。
論文参考訳（メタデータ） (2025-02-24T14:48:06Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文参考訳（メタデータ） (2024-11-04T18:49:46Z)
Legitimate ground-truth-free metrics for deep uncertainty classification scoring [3.9599054392856483]
製造における不確実性定量化(UQ)手法の使用は依然として限られている。この制限は、UQ基底真理を欠いたUQ手法を検証するという課題によってさらに悪化する。本稿では,これらの指標を考察し,理論的に良好であり,実際に不確実な基礎的真理に結びついていることを証明する。
論文参考訳（メタデータ） (2024-10-30T14:14:32Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。 QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文参考訳（メタデータ） (2024-04-01T09:33:05Z)
Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。 We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文参考訳（メタデータ） (2024-02-22T03:46:08Z)
Distribution-free uncertainty quantification for classification under label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文参考訳（メタデータ） (2021-03-04T20:51:03Z)
Uncertainty Quantification Using Neural Networks for Molecular Property Prediction [33.34534208450156]
複数の相補的な性能指標を用いて,5つのベンチマークデータセット上で複数の手法を体系的に評価した。テストしたどのメソッドも他のどのメソッドよりも絶対的に優れているわけではなく、複数のデータセットにまたがって特に信頼性の高いエラーランキングを生成するものもありません。我々は,既存の技術が他とよく関係しているように見えるものについて,実践的な勧告で結論付けている。
論文参考訳（メタデータ） (2020-05-20T13:31:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。