論文の概要: From Calibration to Collaboration: LLM Uncertainty Quantification Should Be More Human-Centered
- arxiv url: http://arxiv.org/abs/2506.07461v1
- Date: Mon, 09 Jun 2025 06:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.827212
- Title: From Calibration to Collaboration: LLM Uncertainty Quantification Should Be More Human-Centered
- Title(参考訳): 校正から協力へ:LLMの不確かさの定量化は人間中心にすべき
- Authors: Siddartha Devic, Tejas Srinivasan, Jesse Thomason, Willie Neiswanger, Vatsal Sharan,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のユーザをますます支援していますが、その信頼性は依然として懸念されています。
LLMにおける不確実性定量化の現在の実践は、現実世界のタスクにおける意思決定に有用なUQを開発するのに最適ではない、と我々は主張する。
- 参考スコア(独自算出の注目度): 26.172036817406095
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly assisting users in the real world, yet their reliability remains a concern. Uncertainty quantification (UQ) has been heralded as a tool to enhance human-LLM collaboration by enabling users to know when to trust LLM predictions. We argue that current practices for uncertainty quantification in LLMs are not optimal for developing useful UQ for human users making decisions in real-world tasks. Through an analysis of 40 LLM UQ methods, we identify three prevalent practices hindering the community's progress toward its goal of benefiting downstream users: 1) evaluating on benchmarks with low ecological validity; 2) considering only epistemic uncertainty; and 3) optimizing metrics that are not necessarily indicative of downstream utility. For each issue, we propose concrete user-centric practices and research directions that LLM UQ researchers should consider. Instead of hill-climbing on unrepresentative tasks using imperfect metrics, we argue that the community should adopt a more human-centered approach to LLM uncertainty quantification.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のユーザをますます支援していますが、その信頼性は依然として懸念されています。
不確実性定量化(UQ)は、LLM予測をいつ信頼すべきかをユーザが知ることができるようにすることで、人間とLLMのコラボレーションを強化するツールとして推奨されている。
LLMにおける不確実性定量化の現在の実践は、現実世界のタスクにおける意思決定に有用なUQを開発するのに最適ではない、と我々は主張する。
40 LLM UQ手法の分析を通じて、下流ユーザーへの利益を目標とするコミュニティの進歩を妨げる3つの一般的なプラクティスを同定する。
1) 生態学的妥当性の低いベンチマークによる評価
2) 疫学上の不確実性のみを考慮すること,及び
3) 下流のユーティリティを必ずしも示さないメトリクスを最適化する。
各問題に対して,LLM UQ研究者が考慮すべき具体的なユーザ中心のプラクティスと研究方向性を提案する。
不完全な指標を用いて非表現的なタスクをヒルクライミングする代わりに、コミュニティはLLMの不確実性定量化に対してより人間中心のアプローチを採用するべきだと論じる。
関連論文リスト
- BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Prevalence and prevention of large language model use in crowd work [11.554258761785512]
大規模言語モデル (LLM) の使用は, 集団作業者の間で広く普及していることを示す。
目標緩和戦略は, LLM の使用量を大幅に削減するが, 排除はしない。
論文 参考訳(メタデータ) (2023-10-24T09:52:09Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。