論文の概要: Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack
- arxiv url: http://arxiv.org/abs/2505.15323v1
- Date: Wed, 21 May 2025 09:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.430496
- Title: Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack
- Title(参考訳): プレフィル攻撃による複数質問応答におけるLLMファーストトークン予測の改善
- Authors: Silvia Cappelletti, Tobia Poppi, Samuele Poppi, Zheng-Xin Yong, Diego Garcia-Olano, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 大規模言語モデル(LLM)は、MCQA(Multiple-choice Question answering)タスクでますます評価される。
モデル出力に先立って、構造化された自然言語の接頭辞である*prefilling attack*(例: "*The correct option is:*")を提案する。
以上の結果から,プレフィルは複数選択設定におけるFTPベースの評価の信頼性を高めるための,シンプルで堅牢で低コストな手法であることが示唆された。
- 参考スコア(独自算出の注目度): 44.205352310633174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly evaluated on multiple-choice question answering (MCQA) tasks using *first-token probability* (FTP), which selects the answer option whose initial token has the highest likelihood. While efficient, FTP can be fragile: models may assign high probability to unrelated tokens (*misalignment*) or use a valid token merely as part of a generic preamble rather than as a clear answer choice (*misinterpretation*), undermining the reliability of symbolic evaluation. We propose a simple solution: the *prefilling attack*, a structured natural-language prefix (e.g., "*The correct option is:*") prepended to the model output. Originally explored in AI safety, we repurpose prefilling to steer the model to respond with a clean, valid option, without modifying its parameters. Empirically, the FTP with prefilling strategy substantially improves accuracy, calibration, and output consistency across a broad set of LLMs and MCQA benchmarks. It outperforms standard FTP and often matches the performance of open-ended generation approaches that require full decoding and external classifiers, while being significantly more efficient. Our findings suggest that prefilling is a simple, robust, and low-cost method to enhance the reliability of FTP-based evaluation in multiple-choice settings.
- Abstract(参考訳): 大規模言語モデル (LLM) は *first-token probability* (FTP) を用いて複数の質問応答 (MCQA) タスクで評価される。
モデルは無関係なトークン(*misalignment*)に高い確率を割り当てたり、明確な答えの選択(*mispretation*)ではなく、一般的なプリアンブルの一部として有効なトークンを使用することで、シンボル評価の信頼性を損なうことができる。
モデル出力に先立って構造化された自然言語の接頭辞である*prefilling attack*(例: "*The correct option is:*")を提案する。
もともとAIの安全性について検討していたので、パラメータを変更することなく、モデルにクリーンで有効なオプションで応答するように、プレフィルを再利用しています。
実証的に、プリフィル戦略を持つFTPは、幅広いLCMとMCQAベンチマークの精度、キャリブレーション、出力一貫性を大幅に向上させる。
これは標準FTPよりも優れており、完全なデコードと外部分類器を必要とするオープンエンドジェネレーションアプローチのパフォーマンスとよく一致しますが、より効率的です。
以上の結果から,プレフィルは複数選択設定におけるFTPベースの評価の信頼性を高めるための,シンプルで堅牢で低コストな手法であることが示唆された。
関連論文リスト
- Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大きな言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - ADePT: Adaptive Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [23.511954119467735]
Prompt Tuning (PT)は、事前訓練された大規模言語モデル(PLM)の下流タスクへの適応を可能にする。
Decomposed Prompt Tuning (DePT) は優れた適応能力を示した。
ADePTは短いソフトプロンプトと浅いトークン共有フィードフォワードニューラルネットワークで構成されている。
論文 参考訳(メタデータ) (2025-01-06T08:20:04Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。