論文の概要: RBCorr: Response Bias Correction in Language Models
- arxiv url: http://arxiv.org/abs/2602.12445v1
- Date: Thu, 12 Feb 2026 22:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.771436
- Title: RBCorr: Response Bias Correction in Language Models
- Title(参考訳): RBCorr:言語モデルにおける応答バイアス補正
- Authors: Om Bhatt, Anna A. Ivanova,
- Abstract要約: 我々は、単純な応答バイアス補正戦略(texttRBCorr$)を提案し、それを12のオープンウェイト言語モデルでテストする。
我々は、LMの事前補正において応答バイアスが一般的であることを示し、$texttRBCorr$はバイアスを効果的に排除し、モデル性能を向上することを示した。
- 参考スコア(独自算出の注目度): 2.7032477253476124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are known to be prone to response biases, which present as option preference biases in fixed-response questions. It is therefore imperative to develop low-cost and effective response bias correction methods to improve LM performance and enable more accurate evaluations of model abilities. Here, we propose a simple response bias correction strategy ($\texttt{RBCorr}$) and test it on 12 open-weight language models using yes-no, entailment, and multiple choice questions. We show that response bias is prevalent in LMs pre-correction and that $\texttt{RBCorr}$ effectively eliminates bias and boosts model performance. We also explore the generalizability of bias behavior across models, datasets, and prompt formats, showing that LogProbs-based correction is highly dependent on all three of these aspects. Overall, $\texttt{RBCorr}$ is an easy-to-use method that can boost the performance of smaller LMs and ensure that LM performance on closed-response benchmarks aligns more closely with their true capabilities.
- Abstract(参考訳): 言語モデル(LM)は、応答バイアスの傾向が知られており、これは固定応答問題においてオプション優先バイアスとして現れる。
したがって、LM性能を改善し、モデル能力のより正確な評価を可能にするために、低コストで効果的な応答バイアス補正法を開発することが不可欠である。
本稿では、単純な応答バイアス補正戦略($\texttt{RBCorr}$)を提案し、yes-no、entailment、複数選択質問を用いた12のオープンウェイト言語モデルでそれをテストする。
我々は、LMの事前補正において応答バイアスが一般的であることを示し、$\texttt{RBCorr}$はバイアスを効果的に排除し、モデル性能を向上することを示した。
また、モデル、データセット、プロンプトフォーマット間のバイアス挙動の一般化可能性についても検討し、LogProbsベースの補正がこれら3つの側面に大きく依存していることを示します。
全体として、$\texttt{RBCorr}$は、より小さなLMのパフォーマンスを向上し、クローズドレスポンスベンチマークでのLMパフォーマンスが真の機能とより密に一致することを保証する、使いやすいメソッドである。
関連論文リスト
- RAZOR: Sharpening Knowledge by Cutting Bias with Unsupervised Text Rewriting [16.633948320306832]
手動で構築されたデータセットで一般的なバイアスは、トークンとラベルの間に急激な相関をもたらす可能性がある。
既存のデバイアス法は、しばしば特定のデータセットバイアスに関する事前の知識に依存している。
本稿では,ショートカット緩和のためのテキスト書き直しに基づく,新規で教師なし,データ重視のデバイアス処理手法であるRAZORを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:02:58Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [38.47276516266]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。