論文の概要: ABCD: All Biases Come Disguised
- arxiv url: http://arxiv.org/abs/2602.17445v1
- Date: Thu, 19 Feb 2026 15:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.122301
- Title: ABCD: All Biases Come Disguised
- Title(参考訳): ABCD:すべての自転車が解体される
- Authors: Mateusz Nowak, Xavier Cadet, Peter Chin,
- Abstract要約: MCQ(Multiple-choice Question)ベンチマークは標準的な評価手法である。
本稿では,各質問のラベルを一様無順序ラベルに置き換える,単純なバイアス低減評価プロトコルを提案する。
このプロトコルは、平均モデルの性能を最小限に抑えつつ、平均精度のばらつきを3倍に減らし、置換に答えるロバスト性を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 4.603755953026689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice question (MCQ) benchmarks have been a standard evaluation practice for measuring LLMs' ability to reason and answer knowledge-based questions. Through a synthetic NonsenseQA benchmark, we observe that different LLMs exhibit varying degrees of label-position-few-shot-prompt bias, where the model either uses the answer position, the label in front of the answer, the distributions of correct answers present in the few-shot prompt, or a combination of all to answer each MCQ question. We propose a simple bias-reduced evaluation protocol that replaces the labels of each question with uniform, unordered labels and prompts the LLM to use the whole answer presented. With a simple sentence similarity model, we demonstrate improved robustness and lower standard deviation between different permutations of answers with a minimal drop in LLM's performance, exposing the LLM's capabilities under reduced evaluation artifacts, without any help from the prompt examples or the option labels. Across multiple benchmarks and models, this protocol substantially improves the robustness to answer permutations, reducing mean accuracy variance $3\times$ with only a minimal decrease in the mean model's performance. Through ablation studies on various embedding models and similarity functions, we show that the method is more robust than the standard ones.
- Abstract(参考訳): MCQ(Multiple-choice question)ベンチマークは、LLMが知識に基づく質問を推論し答える能力を測定するための標準的な評価手法である。
我々は,NonsenseQAベンチマークを用いて,モデルが回答位置,回答前のラベル,数発のプロンプトに存在する正解の分布,あるいは各MCQ質問に答えるすべての組み合わせを用いて,ラベル定位・フェーショット・プロンプトバイアスの様々な程度を示すことを観察した。
本稿では,各質問のラベルを一様で順序のないラベルに置き換え,LLMに提示された全回答を活用させる単純なバイアス低減評価プロトコルを提案する。
簡単な文類似性モデルを用いて,LLMの性能低下を最小限に抑えつつ,各回答の順列間の標準偏差の低減と頑健性の向上を実証した。
複数のベンチマークとモデルにわたって、このプロトコルは置換に答える堅牢性を大幅に改善し、平均モデルの性能を最小限に抑えながら平均精度の差を3/times$に減らした。
様々な埋め込みモデルと類似性関数のアブレーション研究を通じて,本手法は標準モデルよりも頑健であることを示す。
関連論文リスト
- Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach [13.829059542429876]
大規模言語モデル(LLM)の性能評価手法として,MCQ (Multiple Choice Questioning) が広く用いられている。
LLMはMCQタスクにおいて選択バイアスを示し、その選択は内容よりも答えの位置やオプション記号などの要因に影響される。
論文 参考訳(メタデータ) (2025-11-17T21:31:37Z) - Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models [2.393011821499345]
大規模視覚言語モデル(LVLM)における選択バイアスの存在と性質について検討する。
一般および文脈的プロンプトからアンサンブルバイアスベクトルを推定する推論時間ロジットレベルのデバイアス法を提案する。
本手法はリトレーニングなしでバイアスを軽減し,冷凍LVLMと互換性がある。
論文 参考訳(メタデータ) (2025-09-20T20:45:47Z) - The Non-Determinism of Small LLMs: Evidence of Low Answer Consistency in Repetition Trials of Standard Multiple-Choice Benchmarks [0.013048920509133805]
本稿では,MMLU-Redux と MedQA のベンチマークから 10 回の質問に応答する,既知のオープンソース LLM について検討する。
その結果、一貫した解答が可能な質問の数はモデルによって大きく異なることがわかった。
中規模モデルの結果は、回答の一貫性のレベルがはるかに高いことを示している。
論文 参考訳(メタデータ) (2025-09-05T17:31:14Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [60.18907916989796]
大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T11:47:18Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。