論文の概要: Language Model Probabilities are Not Calibrated in Numeric Contexts
- arxiv url: http://arxiv.org/abs/2410.16007v2
- Date: Tue, 04 Mar 2025 19:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:28.745499
- Title: Language Model Probabilities are Not Calibrated in Numeric Contexts
- Title(参考訳): 言語モデル確率は数値文脈では校正されない
- Authors: Charles Lovering, Michael Krumdick, Viet Dac Lai, Seth Ebner, Nilesh Kumar, Varshini Reddy, Rik Koncel-Kedziorski, Chris Tanner,
- Abstract要約: 言語モデル(LM)の出力は自然分布を捉えるべきだと我々は主張する。
本研究は、LM出力確率がテキストコンテキスト内の数値情報に校正されるかどうかを特に検証する。
- 参考スコア(独自算出の注目度): 16.17638166383352
- License:
- Abstract: Some statements have one well-defined continuation (e.g., "the Eiffel Tower is in [Paris]"), whereas others have a natural distribution over multiple options (e.g., "the weighted coin flip was [Heads/Tails].") We argue that language model (LM) outputs should capture these natural distributions. Our work specifically tests whether LM output probabilities are calibrated to numeric information within their textual contexts. For example, if the context (the prompt) concerns two equally likely options (e.g., heads or tails for a fair coin), the LM output probabilities should also be equal. Likewise, in a context with nonuniformly likely events (e.g., rolling a pair with two dice) an LM should output proportionate probabilities. However, we find that even in simple settings, the best LMs (1) are poorly calibrated and (2) have systematic biases: artifacts like word identity, word order, and word frequency all impact calibration. For example, gpt-4o-mini often picks the first of two options presented in the prompt regardless of the options' implied likelihoods, whereas Llama-3.1-8B picks the second. Models do not allocate probability mass among valid options in a calibrated manner.
- Abstract(参考訳): 例えば、エッフェル塔は[パリ]にある)一方、複数の選択肢にまたがる自然な分布を持つ(例えば、「重み付けされたコインフリップは [Heads/Tails] である」)。
本研究は、LM出力確率がテキストコンテキスト内の数値情報に校正されるかどうかを特に検証する。
例えば、文脈(プロンプト)が2つの等しく可能な選択肢(例えば、フェアコインの頭や尾)に関心がある場合、LM出力確率も等しくなければならない。
同様に、不均一に起こりうる事象(例えば、2つのダイスでペアを転がす)の文脈では、LMは確率に比例して出力すべきである。
しかし, 簡単な設定であっても, 最高のLM(1)は校正が不十分であり, (2) 体系的なバイアスがあることがわかった。
例えば、gpt-4o-miniは2つのオプションのうち1つを選ぶが、Llama-3.1-8Bは2つを選択する。
モデルは、正解された方法で有効な選択肢に確率質量を割り当てない。
関連論文リスト
- Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Learning Posterior and Prior for Uncertainty Modeling in Person
Re-Identification [11.651410633259543]
我々は、潜在空間におけるサンプル後部分布とクラス先行分布を学習し、代表的特徴だけでなく、モデルによって不確実性を構築することができる。
Market1501、DukeMTMC、MARS、ノイズデータセットでも実験が行われている。
論文 参考訳(メタデータ) (2020-07-17T07:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。