論文の概要: Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach
- arxiv url: http://arxiv.org/abs/2511.21709v1
- Date: Mon, 17 Nov 2025 21:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.351089
- Title: Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach
- Title(参考訳): LLMにおける選択バイアスの定量化と緩和:移動可能なLoRA微細調整と効率よい多数投票手法
- Authors: Blessed Guda, Lawrence Francis, Gabrial Zencha Ashungafac, Carlee Joe-Wong, Moise Busogi,
- Abstract要約: 大規模言語モデル(LLM)の性能評価手法として,MCQ (Multiple Choice Questioning) が広く用いられている。
LLMはMCQタスクにおいて選択バイアスを示し、その選択は内容よりも答えの位置やオプション記号などの要因に影響される。
- 参考スコア(独自算出の注目度): 13.829059542429876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple Choice Question (MCQ) answering is a widely used method for evaluating the performance of Large Language Models (LLMs). However, LLMs often exhibit selection bias in MCQ tasks, where their choices are influenced by factors like answer position or option symbols rather than the content. This bias undermines the reliability of MCQ as an evaluation framework. Most existing selection bias metrics require answer labels and measure divergences between prediction and answer distributions, but do not fully capture the consistency of a model's predictions across different orderings of answer choices. Existing selection bias mitigation strategies have notable limitations: majority voting, though effective, is computationally prohibitive; calibration-based methods require validation sets and often fail to generalize across datasets. To address these gaps, we propose three key contributions: (1) a new unsupervised label-free Permutation Bias Metric (PBM) that directly quantifies inconsistencies in model predictions across answer permutations, providing a more precise measure of selection bias, (2) an efficient majority voting approach called Batch Question-Context KV caching (BaQCKV), to significantly reduce computational costs while preserving bias mitigation effectiveness, and (3) an unsupervised Low-Rank Adaptation (LoRA-1) fine-tuning strategy based on our proposed metric and the BaQCKV that mitigates selection bias, providing a computationally efficient alternative that maintains model generalizability. Experiments across multiple MCQ benchmarks demonstrate that our approaches reduce bias, increasing consistency in accuracy while minimizing computational costs.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能を評価する手法として,MCQ (Multiple Choice Questioning) が広く用いられている。
しかし、LCMはMCQタスクにおいて選択バイアスを示し、その選択は内容よりも答えの位置やオプション記号などの要因に影響される。
このバイアスは、評価フレームワークとしてのMCQの信頼性を損なう。
既存の選択バイアスメトリクスの多くは、解答ラベルを必要とし、予測と解答の分布のばらつきを測定するが、解答選択の異なる順序でモデルの予測の一貫性を完全には捉えない。
多数決は有効ではあるが、計算的に禁止されている; キャリブレーションに基づく手法は検証セットを必要とし、しばしばデータセットをまたいだ一般化に失敗する。
これらのギャップに対処するために,(1) 回答置換におけるモデル予測の不整合を直接定量化し,より正確な選択バイアスを与える,2) バッチ質問コンテキストKVキャッシング (BaQCKV) と呼ばれる効率的な多数決投票手法により,バイアス緩和効果を保ちながら計算コストを大幅に削減する,(3) 提案したメトリックと,その選択バイアスを軽減し,モデル一般化性を維持するための計算効率の良い代替手段を提供する,新しい教師なしラベルなし置換バイアスメトリック (PBM) を提案する。
複数のMCQベンチマークによる実験により、我々の手法はバイアスを低減し、計算コストを最小化しながら精度の一貫性を向上することを示した。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル(LLM)は、複数の質問に応答するときに、特定の回答の選択を体系的に選好することが多い。
このバイアスは、LCM出力の精度と信頼性を低下させ、決定クリティカルなアプリケーションにおけるそれらの有用性を制限する。
選択バイアスに寄与するパラメータを抽出するBias Node Pruning(BNP)と、ホワイトボックスとブラックボックスの設定の両方でバイアスを減らすためのAuxiliary Option Injection(AOI)の2つの方法を紹介する。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。