論文の概要: A Single Character can Make or Break Your LLM Evals
- arxiv url: http://arxiv.org/abs/2510.05152v1
- Date: Thu, 02 Oct 2025 13:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.861055
- Title: A Single Character can Make or Break Your LLM Evals
- Title(参考訳): LLMの単語を1文字で作ったり壊したりできる
- Authors: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim,
- Abstract要約: LLM (Common Large Language Model) 評価において, 例を形式化する方法の選択について検討する。
この一見小さな選択は、モデルレスポンスの品質を劇的に変える可能性がある。
注意点のスコアを求めることで、入力中のキートークンに対して優れた注意を向けることが分かる。
- 参考スコア(独自算出の注目度): 24.01630970697194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common Large Language model (LLM) evaluations rely on demonstration examples to steer models' responses to the desired style. While the number of examples used has been studied and standardized, the choice of how to format examples is less investigated. In evaluation protocols and real world usage, users face the choice how to separate in-context examples: use a comma? new line? semi-colon? hashtag? etc.? Surprisingly, we find this seemingly minor choice can dramatically alter model response quality. Across leading model families (Llama, Qwen, Gemma), performance on MMLU for example can vary by $\pm 23\%$ depending on the choice of delimiter. In fact, one can manipulate model rankings to put any model in the lead by only modifying the single character separating examples. We find LLMs' brittleness pervades topics, model families, and doesn't improve with scale. By probing attention head scores, we find that good-performing delimiters steer attention towards key tokens in the input. Finally, we explore methods to improve LLMs' robustness to the choice of delimiter. We find specifying the selected delimiter in the prompt boosts robustness and offer practical recommendations for the best-performing delimiters to select.
- Abstract(参考訳): LLM(Common Large Language Model)の評価は、モデルが望むスタイルに反応する際の実例に依存している。
使用されるサンプルの数は研究され標準化されているが、サンプルのフォーマットの仕方についてはあまり研究されていない。
評価プロトコルと実世界の利用では、ユーザはコンテキスト内サンプルを分離する方法に直面する。
新しい線?
セミコロン?
ハッシュタグ?
など?
驚くべきことに、この一見小さな選択は、モデルレスポンスの品質を劇的に変える可能性がある。
主要なモデルファミリ(Llama、Qwen、Gemma)全体で、例えばMMLUのパフォーマンスはデリミタの選択に応じて$\pm 23\%$で変更できる。
実際、モデルランキングを操作すれば、任意のモデルを先頭に置くことができる。
LLMの脆さはトピックやモデルファミリーに及ばず、スケールでは改善しない。
注意点のスコアを求めることで、優れたデミッタが入力のキートークンに注意を向けていることが分かる。
最後に, デリミタの選択に対するLLMのロバスト性向上手法について検討する。
選択したデリミタを指定することで、ロバスト性が向上し、最適なデリミタを選択するための実用的なレコメンデーションが提供される。
関連論文リスト
- Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Designing Informative Metrics for Few-Shot Example Selection [14.961505860372492]
本稿では,複雑性に基づく逐次タギングタスクのプロンプト選択手法を提案する。
このアプローチは、サンプルの選択専用のモデルのトレーニングを避ける。
文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。
論文 参考訳(メタデータ) (2024-03-06T17:11:38Z) - Customizing Language Model Responses with Contrastive In-Context Learning [7.342346948935483]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。