論文の概要: Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs
- arxiv url: http://arxiv.org/abs/2509.15020v1
- Date: Thu, 18 Sep 2025 14:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.271433
- Title: Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs
- Title(参考訳): Mind the Gap: LLMを用いた複数項目質問応答のトークン化について
- Authors: Mario Sanz-Guerrero, Minh Duc Bui, Katharina von der Wense,
- Abstract要約: 植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
- 参考スコア(独自算出の注目度): 16.357595595062946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When evaluating large language models (LLMs) with multiple-choice question answering (MCQA), it is common to end the prompt with the string "Answer:" to facilitate automated answer extraction via next-token probabilities. However, there is no consensus on how to tokenize the space following the colon, often overlooked as a trivial choice. In this paper, we uncover accuracy differences of up to 11% due to this (seemingly irrelevant) tokenization variation as well as reshuffled model rankings, raising concerns about the reliability of LLM comparisons in prior work. Surprisingly, we are able to recommend one specific strategy -- tokenizing the space together with the answer letter -- as we observe consistent and statistically significant performance improvements. Additionally, it improves model calibration, enhancing the reliability of the model's confidence estimates. Our findings underscore the importance of careful evaluation design and highlight the need for standardized, transparent evaluation protocols to ensure reliable and comparable results.
- Abstract(参考訳): 複数選択質問応答 (MCQA) を用いた大規模言語モデル (LLM) の評価では,次の確率による自動回答抽出を容易にするために,文字列 "Answer:" でプロンプトを終了することが一般的である。
しかし、コロンの後にどのように空間をトークン化するかについての合意は得られず、しばしば自明な選択として見過ごされる。
本稿では,このトークン化の変動による最大11%の精度差とモデルランキングの正当性を明らかにし,先行研究におけるLCM比較の信頼性に関する懸念を提起する。
意外なことに、私たちは、一貫した統計的に重要なパフォーマンス改善を観察しながら、ある特定の戦略 -- 回答レターとともにスペースをトークン化する -- を推奨しています。
さらに、モデルのキャリブレーションを改善し、モデルの信頼度推定の信頼性を高める。
本研究は,注意深い評価設計の重要性を浮き彫りにして,信頼性と同等の信頼性を確保するために,標準化された透明な評価プロトコルの必要性を強調した。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大規模言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison [22.438863942925973]
信頼性測定のための分解・比較一貫性(DeCC)を提案する。
VLMの内部推論プロセスを用いて生成した直接解の一貫性を比較することにより、DeCCはVLMの直接解の信頼性を測定する。
論文 参考訳(メタデータ) (2024-07-10T17:00:29Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Multicalibration for Confidence Scoring in LLMs [6.948522445499497]
本稿では,大規模言語モデル(LLM)が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために,"マルチバリデーション(multicalibration)"を用いることを提案する。
埋め込み空間内のクラスタリングと「自己アノテーション」という2つの手法を用いて、正しさの確率と相関するプロンプト/コンプリートペアのグルーピングを形成する方法を示す。
我々は,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上させる信頼性スコアを得る方法を示す。
論文 参考訳(メタデータ) (2024-04-06T17:33:37Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。