論文の概要: Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think
- arxiv url: http://arxiv.org/abs/2404.08382v2
- Date: Tue, 20 Aug 2024 08:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:09:31.263721
- Title: Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think
- Title(参考訳): テキストをご覧ください:命令付き言語モデルは、あなたが考えるよりもロバストな複数の選択者です
- Authors: Xinpeng Wang, Chengzhi Hu, Bolei Ma, Paul Röttger, Barbara Plank,
- Abstract要約: テキスト回答は、最初のトークン確率よりも、摂動に疑問を呈するほど堅牢であることを示す。
本研究は,第1トークン確率評価よりもテキスト応答評価が有効であることを示す。
- 参考スコア(独自算出の注目度): 27.595110330513567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple choice questions (MCQs) are commonly used to evaluate the capabilities of large language models (LLMs). One common way to evaluate the model response is to rank the candidate answers based on the log probability of the first token prediction. An alternative way is to examine the text output. Prior work has shown that first token probabilities lack robustness to changes in MCQ phrasing, and that first token probabilities do not match text answers for instruction-tuned models. Therefore, in this paper, we investigate the robustness of text answers. We show that the text answers are more robust to question perturbations than the first token probabilities, when the first token answers mismatch the text answers. The difference in robustness increases as the mismatch rate becomes greater. As the mismatch reaches over 50\%, the text answer is more robust to option order changes than the debiased first token probabilities using state-of-the-art debiasing methods such as PriDe. Our findings provide further evidence for the benefits of text answer evaluation over first token probability evaluation.
- Abstract(参考訳): 複数選択質問(MCQ)は、大規模言語モデル(LLM)の機能を評価するために一般的に用いられる。
モデル応答を評価する一般的な方法は、第1のトークン予測のログ確率に基づいて、候補の回答をランク付けすることである。
別の方法は、テキスト出力を調べることである。
従来の研究では、最初のトークン確率はMCQのフレーズの変更に対して堅牢性に欠けており、最初のトークン確率は命令調整されたモデルに対するテキストの答えと一致しない。
そこで本研究では,テキスト回答のロバスト性について検討する。
テキスト回答は、最初のトークン回答がテキスト回答を間違えたときに、最初のトークン確率よりも摂動を問う方が堅牢であることを示す。
ミスマッチ速度が大きくなるにつれて、ロバスト性の違いが増大する。
ミスマッチが50%以上に達すると、テキスト回答はPriDeのような最先端のデバイアス手法を使用して、デバイアスされたファーストトークンの確率よりも、順番変更をオプションにするとより堅牢になる。
本研究は,第1トークン確率評価よりもテキスト応答評価が有効であることを示す。
関連論文リスト
- Bayesian inference to improve quality of Retrieval Augmented Generation [0.21756081703276]
検索拡張生成(Retrieval Augmented Generation、RAG)は、現代の大規模言語モデル(LLM)アプリケーションにおいて最も一般的なパターンである。
ベイズ定理は、仮説の条件付き確率と証拠と事前確率を関連付けようとする。
そこで本研究では,テキストチャンクの品質を判断し,テキストチャンクの品質の事前確率を用いることで,RAGシステムからの応答の全体的な品質向上に役立つことを提案する。
論文 参考訳(メタデータ) (2024-08-12T08:54:32Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - More Than Words: Towards Better Quality Interpretations of Text
Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。
1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文 参考訳(メタデータ) (2021-12-23T10:18:50Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。