論文の概要: Are Language Model Logits Calibrated?
- arxiv url: http://arxiv.org/abs/2410.16007v1
- Date: Mon, 21 Oct 2024 13:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:34.697864
- Title: Are Language Model Logits Calibrated?
- Title(参考訳): 言語モデルのログは校正されているか?
- Authors: Charles Lovering, Michael Krumdick, Viet Dac Lai, Nilesh Kumar, Varshini Reddy, Rik Koncel-Kedziorski, Chris Tanner,
- Abstract要約: 我々はLanguage Modelsの出力確率がテキストコンテキストに調整されているかどうかをテストする。
単純な設定であっても、最高のLMはキャリブレーションが不十分であることがわかった。
また、命令調整されたモデルでは、1つのオプションで確率質量を過度に割り当てることがある。
- 参考スコア(独自算出の注目度): 16.476841686716945
- License:
- Abstract: Some information is factual (e.g., "Paris is in France"), whereas other information is probabilistic (e.g., "the coin flip will be a [Heads/Tails]."). We believe that good Language Models (LMs) should understand and reflect this nuance. Our work investigates this by testing if LMs' output probabilities are calibrated to their textual contexts. We define model "calibration" as the degree to which the output probabilities of candidate tokens are aligned with the relative likelihood that should be inferred from the given context. For example, if the context concerns two equally likely options (e.g., heads or tails for a fair coin), the output probabilities should reflect this. Likewise, context that concerns non-uniformly likely events (e.g., rolling a six with a die) should also be appropriately captured with proportionate output probabilities. We find that even in simple settings the best LMs (1) are poorly calibrated, and (2) have systematic biases (e.g., preferred colors and sensitivities to word orderings). For example, gpt-4o-mini often picks the first of two options presented in the prompt regardless of the options' implied likelihood, whereas Llama-3.1-8B picks the second. Our other consistent finding is mode-collapse: Instruction-tuned models often over-allocate probability mass on a single option. These systematic biases introduce non-intuitive model behavior, making models harder for users to understand.
- Abstract(参考訳): いくつかの情報は事実的である(例:パリはフランスにある)が、他の情報は確率的である(例:コインフリップは[ヘッドス/タイル]である)。
私たちは、優れた言語モデル(LM)がこのニュアンスを理解し、反映すべきだと考えています。
本研究は、LMの出力確率がテキストコンテキストに校正されているかどうかを検証することによって、これを検証する。
モデル"キャリブレーション"は、候補トークンの出力確率が与えられた文脈から推測されるべき相対確率に一致している度合いとして定義する。
例えば、コンテキストが2つのオプション(例えば、公正なコインの頭や尾)に等しく関係するなら、出力確率はこのことを反映すべきである。
同様に、不均一に起こりうる事象(例えば6をダイで転がすなど)に関するコンテキストも、比例的な出力確率で適切にキャプチャされるべきである。
簡単な設定であっても、最高のLM(1)は校正が不十分であり、(2)系統的バイアス(例えば、好みの色や単語の順序に対する感性)があることがわかった。
例えば、gpt-4o-miniは2つのオプションのうち1つを選ぶが、Llama-3.1-8Bは2つを選択する。
インストラクションチューニングされたモデルは、しばしば1つのオプションで確率質量を過度に割り当てる。
これらの体系的バイアスは直感的でないモデル行動をもたらし、モデルを理解するのが難しくなる。
関連論文リスト
- Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Learning Posterior and Prior for Uncertainty Modeling in Person
Re-Identification [11.651410633259543]
我々は、潜在空間におけるサンプル後部分布とクラス先行分布を学習し、代表的特徴だけでなく、モデルによって不確実性を構築することができる。
Market1501、DukeMTMC、MARS、ノイズデータセットでも実験が行われている。
論文 参考訳(メタデータ) (2020-07-17T07:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。