論文の概要: Reconsidering LLM Uncertainty Estimation Methods in the Wild
- arxiv url: http://arxiv.org/abs/2506.01114v1
- Date: Sun, 01 Jun 2025 18:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.938548
- Title: Reconsidering LLM Uncertainty Estimation Methods in the Wild
- Title(参考訳): 野生におけるLLM不確かさ推定手法の再検討
- Authors: Yavuz Bakman, Duygu Nur Yaldiz, Sungmin Kang, Tuo Zhang, Baturalp Buyukates, Salman Avestimehr, Sai Praneeth Karimireddy,
- Abstract要約: 実用環境でUEメソッドをデプロイする際の4つの重要な側面を体系的に検討する。
評価の結果,キャリブレーションデータセットに分布シフトがある場合,そのほとんどが閾値選択に非常に敏感であることが判明した。
既存のUE手法は様々な戦略によって長文生成に適応できるが、改善の余地は大きい。
- 参考スコア(独自算出の注目度): 28.024398222051403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) Uncertainty Estimation (UE) methods have become a crucial tool for detecting hallucinations in recent years. While numerous UE methods have been proposed, most existing studies evaluate them in isolated short-form QA settings using threshold-independent metrics such as AUROC or PRR. However, real-world deployment of UE methods introduces several challenges. In this work, we systematically examine four key aspects of deploying UE methods in practical settings. Specifically, we assess (1) the sensitivity of UE methods to decision threshold selection, (2) their robustness to query transformations such as typos, adversarial prompts, and prior chat history, (3) their applicability to long-form generation, and (4) strategies for handling multiple UE scores for a single query. Our evaluations on 19 UE methods reveal that most of them are highly sensitive to threshold selection when there is a distribution shift in the calibration dataset. While these methods generally exhibit robustness against previous chat history and typos, they are significantly vulnerable to adversarial prompts. Additionally, while existing UE methods can be adapted for long-form generation through various strategies, there remains considerable room for improvement. Lastly, ensembling multiple UE scores at test time provides a notable performance boost, which highlights its potential as a practical improvement strategy. Code is available at: https://github.com/duygunuryldz/uncertainty_in_the_wild.
- Abstract(参考訳): 近年,Large Language Model (LLM) Uncertainty Estimation (UE) 法は幻覚を検出する重要なツールとなっている。
多くのUE手法が提案されているが、既存の研究のほとんどは、AUROCやPRRのようなしきい値に依存しないメトリクスを用いて、孤立した短周期QA設定で評価している。
しかし、UEメソッドの実際のデプロイにはいくつかの課題が伴う。
本研究では,UEメソッドを実践的な環境でデプロイする際の4つの重要な側面を体系的に検討する。
具体的には,(1)しきい値選択のためのUE手法の感度,(2)タイプミス,敵対的プロンプト,および先行チャット履歴などのクエリ変換に対する堅牢性,(3)長文生成への適用性,(4)単一のクエリに対して複数のUEスコアを扱うための戦略を評価する。
19 UE法を用いて評価した結果,キャリブレーションデータセットに分布シフトがある場合,そのほとんどが閾値選択に非常に敏感であることが判明した。
これらの手法は, 従来のチャット履歴やタイプミスに対して強靭性を示すが, 相手のプロンプトに対して極めて脆弱である。
また,既存のUE手法は様々な戦略により長文生成に適応できるが,改善の余地は十分にある。
最後に、複数のUEスコアをテスト時にまとめることで、注目すべきパフォーマンスが向上し、実用的な改善戦略としての可能性を強調します。
コードは、https://github.com/duygunuryldz/uncertainty_in_the_wild.comで入手できる。
関連論文リスト
- Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis [15.553942864736989]
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T11:47:42Z) - Enhancing Zero-shot Chain of Thought Prompting via Uncertainty-Guided Strategy Selection [10.49840493806499]
本稿では,ゼロショット不確実性に基づく選択法(ZEUS)を提案する。
ZEUSは有用な質問と非効果的な質問の区別において高い感度を提供し、より正確で信頼性の高い選択を保証する。
我々の評価は、ZEUSが既存のCoT戦略を4つの挑戦的推論ベンチマークで一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-30T04:22:00Z) - Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。
提案したベンチマークで最先端の手法を広範囲に評価する。
この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文 参考訳(メタデータ) (2024-11-08T13:40:01Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs [25.140644986988487]
不確実性評価のための長さ正規化スコアリング(UE)の代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考慮に入れた、新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-02-19T01:04:22Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。