論文の概要: Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators
- arxiv url: http://arxiv.org/abs/2509.03647v1
- Date: Wed, 03 Sep 2025 18:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.947428
- Title: Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators
- Title(参考訳): 鏡を破る: LLM評価器における活性化に基づく自己選好の緩和
- Authors: Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Jou Barzdukas, Simon Fu, Narmeen Oozeer,
- Abstract要約: 自己選好バイアス」は評価パイプラインの公平性と信頼性を損なう。
本研究は, 軽量ステアリングベクトルが再トレーニングを伴わずに, 推論時にこの問題を軽減することができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 3.07869141026886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly serve as automated evaluators, yet they suffer from "self-preference bias": a tendency to favor their own outputs over those of other models. This bias undermines fairness and reliability in evaluation pipelines, particularly for tasks like preference tuning and model routing. We investigate whether lightweight steering vectors can mitigate this problem at inference time without retraining. We introduce a curated dataset that distinguishes self-preference bias into justified examples of self-preference and unjustified examples of self-preference, and we construct steering vectors using two methods: Contrastive Activation Addition (CAA) and an optimization-based approach. Our results show that steering vectors can reduce unjustified self-preference bias by up to 97\%, substantially outperforming prompting and direct preference optimization baselines. Yet steering vectors are unstable on legitimate self-preference and unbiased agreement, implying self-preference spans multiple or nonlinear directions. This underscores both their promise and limits as safeguards for LLM-as-judges and motivates more robust interventions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます自動化された評価指標として機能するが、それらは「自己参照バイアス(self-preference bias)」に悩まされる。
このバイアスは、特に優先順位調整やモデルルーティングといったタスクにおいて、評価パイプラインの公平性と信頼性を損なう。
本研究は, 軽量ステアリングベクトルが再トレーニングを伴わずに, 推論時にこの問題を軽減することができるかどうかを考察する。
本稿では,自己選好バイアスを自己選好の正当例と不正な自己選好の正当例に区別するキュレートデータセットを導入し,コントラッシブ・アクティベーション・アダクション(CAA)と最適化に基づくアプローチの2つの手法を用いてステアリング・ベクターを構築する。
その結果, ステアリングベクターは, 不当な自己選好バイアスを最大97倍に低減し, プロンプトと直接選好最適化の基準線を著しく上回ることがわかった。
しかし、ステアリングベクトルは正当な自己選好と偏見のない合意に対して不安定であり、自己選好は複数の方向または非線形方向にまたがることを意味する。
このことは、LSM-as-judgesのセーフガードとしての彼らの約束と限界の両方を強調し、より堅牢な介入を動機付けている。
関連論文リスト
- Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors [13.630818884973127]
タスク演算にインスパイアされた新しいフレームワークであるPreference Vectorを提案する。
単一の目的内で複数の選好を最適化する代わりに、個々の選好について別々のモデルをトレーニングし、選好ベクトルとして振る舞いシフトを抽出し、テスト時に動的にマージします。
実験の結果,提案するPreference Vectorフレームワークは,過度な保守性のない利便性の向上,好みのトレードオフのスムーズな制御,スケーラブルなマルチ参照アライメントをサポートすることがわかった。
論文 参考訳(メタデータ) (2025-04-27T12:16:51Z) - Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文 参考訳(メタデータ) (2025-04-04T18:09:23Z) - Shifting Perspectives: Steering Vectors for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
我々は、BBQデータセットのトレーニングサブセット上で、それぞれ異なる社会的バイアス軸に対応する8つのステアリングベクトルを計算し、これらの有効性を4つのデータセットにまたがる3つのバイアス緩和手法と比較する。
BBQデータセットに最適化すると、個別に調整されたステアリングベクトルは、BBQで12.8%、CLEAR-Biasで8.3%、StereoSetで1%の平均的な改善が達成される。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z) - One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。