Fugu-MT 論文翻訳(概要): Large Language Models Must Be Taught to Know What They Don't Know

論文の概要: Large Language Models Must Be Taught to Know What They Don't Know

arxiv url: http://arxiv.org/abs/2406.08391v1
Date: Wed, 12 Jun 2024 16:41:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 15:57:07.881917
Title: Large Language Models Must Be Taught to Know What They Don't Know
Title（参考訳）: 大規模言語モデルは、彼らが知らないことを知るには足りなければならない
Authors: Sanyam Kapoor, Nate Gruver, Manley Roberts, Katherine Collins, Arka Pal, Umang Bhatt, Adrian Weller, Samuel Dooley, Micah Goldblum, Andrew Gordon Wilson,
Abstract要約: 正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
参考スコア（独自算出の注目度）: 97.90008709512921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.
Abstract（参考訳）: 大規模言語モデル(LLM)を高度なアプリケーションで使用する場合、その予測をいつ信頼できるかを知る必要があります。高性能LSMの推進は校正された不確実性を生み出すのに十分であると主張する研究もある一方で、違法に高価なサンプリング手法を導入する研究もある。この研究において、まず、正しいキャリブレーションを達成するには自己のプロンプトが不十分であるとの主張を行い、その上で、正解と誤解の小さなデータセットを微調整することで、優れた一般化と計算オーバーヘッドの少ない不確かさを推定できることを示した。そこで本研究では,1000のグレードがベースライン法より優れていることを示すとともに,モデルの特徴を生かしたトレーニングが,性能向上に必要であり,LoRAを使用する場合の大規模オープンソースモデルに対するトラクタブルであることを示す。また、信頼性の高いLCM不確実性推定を可能にするメカニズムについても検討し、多くのモデルを汎用的な不確実性推定器として利用することができ、その不確実性だけでなく、他のモデルの不確実性にも適用できることを示した。最後に,不確実性推定が人間とAIの協調環境におけるLLMの人為的利用をユーザスタディで示すことを示す。

関連論文リスト

On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文参考訳（メタデータ） (2026-02-14T01:07:45Z)
A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges [0.0]
我々は,大規模言語モデル(LLM)の使用方法に関する包括的で実践的なガイダンスを提供することを目指している。我々は、非決定主義、知識増強、M&Sデータの分解など、混乱の共通源について議論する。我々は,設計選択の原則,診断戦略,経験的評価を強調した。
論文参考訳（メタデータ） (2026-02-05T17:00:07Z)
OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data [42.23843583401247]
実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。 OpenEstimateは、数値推定のLMを評価するためのベンチマークである。 LM-elicited priors は不正確で過度に信頼されることが多い。
論文参考訳（メタデータ） (2025-10-16T19:35:22Z)
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models [0.0]
本研究では,人間のグループレベルの不確実性と従来のモデルキャリブレーションの両概念との密接な一致を判断するために,推論時不確実性尺度の収集を評価する。その結果,ヒトの回答嗜好に一致していないにもかかわらず,人間の不確実性に強い対応を示す尺度が多数存在することが判明した。
論文参考訳（メタデータ） (2025-08-11T17:22:45Z)
An Information-Theoretic Perspective on Multi-LLM Uncertainty Estimation [7.018119896897734]
大規模言語モデル(LLM)は入力間で矛盾なく振る舞うことが多く、不確実性を示し、その定量化の必要性を高レベルな設定で動機付けている。本稿では,MUSE(Multi-LLM Uncertainty via Subset Ensembles)を提案する。二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文参考訳（メタデータ） (2025-07-09T19:13:25Z)
Pretrained LLMs Learn Multiple Types of Uncertainty [23.807232455808613]
大規模言語モデルは現実世界の知識を捉えることで知られており、下流の多くのタスクに精通することができる。本研究では,LLMが不確実性をどのように捉えているのかを,それに対して明示的に訓練されることなく検討する。モデルの潜在空間における線形概念としての不確実性を考えると、事前訓練後にのみ捕捉されることが示される。
論文参考訳（メタデータ） (2025-05-27T14:06:15Z)
The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文参考訳（メタデータ） (2024-12-17T08:04:28Z)
Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries [6.249216559519607]
元のベースクエリの複数の言い換えにより,クローズドソースの大規模言語モデルの不確かさを推定する。本手法は, ベースラインと比較して不確実性推定の校正精度が著しく向上したことを示す。
論文参考訳（メタデータ） (2024-05-22T18:28:26Z)
Learn When (not) to Trust Language Models: A Privacy-Centric Adaptive Model-Aware Approach [23.34505448257966]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。 LLMの事前学習データを解析することにより,データ認識による検索をいつ行うかを決定する方法が提案されている。これらのデータ認識手法は、特に機密データや広範な事前学習データへのアクセスを必要とする場合に、プライバシー上のリスクとメモリ制限をもたらす。我々は、トークンの埋め込みがモデルの本質的な知識を捉えることができると仮定し、事前学習データへのアクセスに関連するプライバシーリスクを伴わずに、検索の必要性を判断するためのより安全で簡単な方法を提供する。
論文参考訳（メタデータ） (2024-04-04T15:21:22Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文参考訳（メタデータ） (2024-02-05T22:22:49Z)
Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。 KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文参考訳（メタデータ） (2023-07-04T21:25:12Z)
BayesCap: Bayesian Identity Cap for Calibrated Uncertainty in Frozen Neural Networks [50.15201777970128]
本研究では,凍結モデルに対するベイズIDマッピングを学習し,不確実性の推定を可能にするBayesCapを提案する。 BayesCapは、元のデータセットのごく一部でトレーニングできる、メモリ効率のよいメソッドである。本稿では,多種多様なアーキテクチャを用いた多種多様なタスクに対する本手法の有効性を示す。
論文参考訳（メタデータ） (2022-07-14T12:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。