論文の概要: Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models
- arxiv url: http://arxiv.org/abs/2506.05339v2
- Date: Mon, 09 Jun 2025 08:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.151521
- Title: Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models
- Title(参考訳): フラタリー, フラフ, フォッグ: 選好モデルにおけるIdiosyncratic Biaseの診断と緩和
- Authors: Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi, Mark Yatskar,
- Abstract要約: 言語モデルは、アライメントと評価において人間の嗜好判断のためのプロキシとして機能する。
それらは体系的な誤校正を示し、実質的な品質よりも表面的なパターンを優先する。
このバイアスは長さ、構造、スタイルといった機能への過度な依存として現れ、報酬のハッキングや信頼できない評価といった問題につながります。
- 参考スコア(独自算出の注目度): 12.445845925904466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models serve as proxies for human preference judgements in alignment and evaluation, yet they exhibit systematic miscalibration, prioritizing superficial patterns over substantive qualities. This bias manifests as overreliance on features like length, structure, and style, leading to issues like reward hacking and unreliable evaluations. Evidence suggests these biases originate in artifacts in human training data. In this work, we systematically investigate the relationship between training data biases and preference model miscalibration across five idiosyncratic features of language model generations: length, structure, jargon, sycophancy and vagueness. Using controlled counterfactual pairs, we first quantify the extent to which preference models favor responses with magnified biases (skew), finding this preference occurs in >60% of instances, and model preferences show high miscalibration (~40%) compared to human preferences. Notably, bias features only show mild negative correlations to human preference labels (mean r_human = -0.12) but show moderately strong positive correlations with labels from a strong reward model (mean r_model = +0.36), suggesting that models may overrely on spurious cues. To mitigate these issues, we propose a simple post-training method based on counterfactual data augmentation (CDA) using synthesized contrastive examples. Finetuning models with CDA reduces average miscalibration from 39.4% to 32.5% and average absolute skew difference from 20.5% to 10.0%, while maintaining overall RewardBench performance, showing that targeted debiasing is effective for building reliable preference models.
- Abstract(参考訳): 言語モデルは、アライメントと評価において人間の嗜好判断のプロキシとして機能するが、それらは体系的な誤校正を示し、実質的な品質よりも表面的なパターンを優先する。
このバイアスは長さ、構造、スタイルといった機能への過度な依存として現れ、報酬のハッキングや信頼できない評価といった問題につながります。
証拠は、これらのバイアスは人間のトレーニングデータにあるアーティファクトに由来することを示唆している。
本研究では, 言語モデル生成の5つの特徴である長さ, 構造, ジャーゴン, サイコフィナンシー, あいまいさに対して, 学習データバイアスと嗜好モデルの誤校正の関係を系統的に検討する。
制御された対物ペアを用いて、まず、拡大バイアス(スキュー)による反応が好まれる程度を定量化し、この選好が60%のインスタンスで発生し、モデル選好は人間の選好と比較して高い誤校正(〜40%)を示す。
特に、バイアス特性は人間の嗜好ラベルと軽度の負の相関(平均 r_ Human = -0.12)しか示さないが、強い報酬モデル(平均 r_model = +0.36)のラベルと適度に強い正の相関(平均 r_model = +0.36)を示す。
これらの問題を緩和するために,合成コントラストを用いた対実データ拡張(CDA)に基づく簡単なポストトレーニング手法を提案する。
CDAを用いたファインタニングモデルは、平均的な誤校正を39.4%から32.5%に減らし、平均的な絶対的なスクリュー差を20.5%から10.0%に減らし、全体のRewardBenchのパフォーマンスを維持しながら、信頼性の高い選好モデルを構築するのに標的の偏りが有効であることを示している。
関連論文リスト
- Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - Does Data-Efficient Generalization Exacerbate Bias in Foundation Models? [2.298227866545911]
ファンデーションモデルは、様々なドメインでラベル効率を持つ堅牢なモデルとして登場した。
事前学習中に機密属性の存在に偏った大量のラベル付きデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。
本研究は,ブラジルの多ラベル眼科学データセットを微調整する際のファンデーションモデルのバイアスについて検討する。
論文 参考訳(メタデータ) (2024-08-28T22:14:44Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本研究は,偏りと偏りの一致したサンプルを正確に予測することの重要性を示す。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。