論文の概要: "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2402.14499v2
- Date: Thu, 4 Jul 2024 12:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:53:32.901821
- Title: "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models
- Title(参考訳): 「私の答えはCだ」:教育言語モデルにおけるテキスト回答に一致しない最初の確率
- Authors: Xinpeng Wang, Bolei Ma, Chengzhi Hu, Leon Weber-Genzel, Paul Röttger, Frauke Kreuter, Dirk Hovy, Barbara Plank,
- Abstract要約: 言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
- 参考スコア(独自算出の注目度): 40.867655189493924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The open-ended nature of language generation makes the evaluation of autoregressive large language models (LLMs) challenging. One common evaluation approach uses multiple-choice questions (MCQ) to limit the response space. The model is then evaluated by ranking the candidate answers by the log probability of the first token prediction. However, first-tokens may not consistently reflect the final response output, due to model's diverse response styles such as starting with "Sure" or refusing to answer. Consequently, MCQ evaluation is not indicative of model behaviour when interacting with users. But by how much? We evaluate how aligned first-token evaluation is with the text output along several dimensions, namely final option choice, refusal rate, choice distribution and robustness under prompt perturbation. Our results show that the two approaches are severely misaligned on all dimensions, reaching mismatch rates over 60%. Models heavily fine-tuned on conversational or safety data are especially impacted. Crucially, models remain misaligned even when we increasingly constrain prompts, i.e., force them to start with an option letter or example template. Our findings i) underscore the importance of inspecting the text output as well and ii) caution against relying solely on first-token evaluation.
- Abstract(参考訳): 言語生成のオープンな性質は、自己回帰型大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
次に、第1トークン予測のログ確率で候補回答をランク付けしてモデルを評価する。
しかし、"Sure"から始まるモデルや応答の拒否など、モデルのさまざまなレスポンススタイルのため、ファーストトークンは最終的なレスポンス出力を一貫して反映しない可能性がある。
その結果,MCQ評価は,ユーザとのインタラクションにおいてモデル動作を示すものではない。
でも、いくらで?
提案手法は, テキストの出力, 最終選択選択, 拒否率, 選択分布, 頑健さを, 即時摂動下でどのように一致させるかを評価する。
以上の結果から,2つのアプローチはすべての次元で大きくミスマッチし,60%以上のミスマッチ率を達成した。
会話データや安全データに微調整されたモデルは、特に影響を受けます。
重要なことに、モデルが不一致を保っているのは、我々がますますプロンプトを制約している時、すなわちオプションレターやサンプルテンプレートから始めるように強制している時です。
私たちの発見
一 テキスト出力の検査の重要性を過小評価し、
二 自己評価のみに頼らないこと。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think [27.595110330513567]
テキスト回答は、最初のトークン確率よりも、摂動に疑問を呈するほど堅牢であることを示す。
本研究は,第1トークン確率評価よりもテキスト応答評価が有効であることを示す。
論文 参考訳(メタデータ) (2024-04-12T10:36:15Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - I'm Afraid I Can't Do That: Predicting Prompt Refusal in Black-Box
Generative Language Models [0.0]
ブラックボックス攻撃を用いてChatGPTの拒絶動作を特徴付ける。
コンプライアンスのバイナリや拒否に対して,さまざまな応答をマップします。
本稿では,ChatGPTの応答を見ることなく,ChatGPTが質問を拒否するかどうかを予測するために,プロンプト分類器を訓練する。
論文 参考訳(メタデータ) (2023-06-06T05:50:58Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。