論文の概要: When Distance Distracts: Representation Distance Bias in BT-Loss for Reward Models
- arxiv url: http://arxiv.org/abs/2512.06343v1
- Date: Sat, 06 Dec 2025 08:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.310644
- Title: When Distance Distracts: Representation Distance Bias in BT-Loss for Reward Models
- Title(参考訳): リモートディトラクション:リワードモデルのためのBT-Lossにおける表現距離バイアス
- Authors: Tong Xie, Andrew Bai, Yuanhao Ban, Yunqi Hong, Haoyu Li, Cho-jui Hsieh,
- Abstract要約: リワードモデルは、RLHFのフレームワーク内のLarge Language Model (LLM)アライメントの中心である。
報酬モデリングで使用される標準的な目的はBradley-Terry(BT)損失であり、これは選択された2つの応答と拒否された応答からなるペアワイズデータから学習する。
適応型ペアワイド正規化方式であるNormBTを提案する。
- 参考スコア(独自算出の注目度): 55.444604697848426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are central to Large Language Model (LLM) alignment within the framework of RLHF. The standard objective used in reward modeling is the Bradley-Terry (BT) loss, which learns from pairwise data consisting of a pair of chosen and rejected responses. In this work, we analyze the per-sample gradient of BT-loss and show that its norm scales with two distinct components: (1) the difference in predicted rewards between chosen and rejected responses, which reflects the prediction error, and critically, (2) representation distance between the pair measured in the output space of the final layer. While the first term captures the intended training signal, we show that the second term can significantly impact the update magnitude and misalign learning. Specifically, pairs with small representation distance often receive vanishingly weak updates, even when misranked, while pairs with large distance receive disproportionately strong updates. This leads to gradients from large-distance pairs to overshadow those from small-distance pairs, where fine-grained distinctions are especially important. To overcome this limitation, we propose NormBT, an adaptive pair-wise normalization scheme that balances representation-driven effects and focuses learning signals on prediction error. NormBT is a lightweight, drop-in integration to BT loss with negligible overhead. Across various LLM backbones and datasets, NormBT improves reward model performance consistently, with notable gains of over 5% on the Reasoning category of RewardBench, which contains numerous small-distance pairs. This work reveals a key limitation in the widely used BT objective and provides a simple, effective correction.
- Abstract(参考訳): リワードモデルは、RLHFのフレームワーク内のLarge Language Model (LLM)アライメントの中心である。
報酬モデリングで使用される標準的な目的はBradley-Terry(BT)損失であり、これは選択された2つの応答と拒否された応答からなるペアワイズデータから学習する。
本研究では,BT-loss のサンプルごとの勾配を解析し,そのノルムが,(1) 最終層の出力空間で測定されたペア間の表現距離を反映した,選択された応答と拒否された応答の予測報酬の差と,(2) 最終層の出力空間で測定されたペア間の表現距離の2つの異なる成分でスケールすることを示す。
第1項は意図した訓練信号をキャプチャするが、第2項は更新の規模や誤った学習に大きな影響を及ぼすことを示す。
特に、小さな表現距離を持つペアは、たとえ誤解があったとしても、驚くほど弱い更新を受けるが、大きな距離を持つペアは不均等に強い更新を受ける。
これにより、大距離対から小距離対への勾配が生まれ、微粒な区別が特に重要である。
この制限を克服するために,表現駆動効果のバランスを保ち,学習信号を予測誤差にフォーカスする適応的なペアワイド正規化スキームであるNormBTを提案する。
NormBTは、BT損失に対する軽量でドロップインの統合であり、オーバーヘッドは無視できる。
様々なLLMバックボーンとデータセット全体で、NormBTは報酬モデルのパフォーマンスを継続的に改善し、多数の小さな距離のペアを含むRewardBenchのReasoningカテゴリで5%以上の顕著な利益を得ている。
この研究は、広く使われているBT目的の鍵となる制限を明らかにし、単純で効果的な補正を提供する。
関連論文リスト
- Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Gradient Extrapolation for Debiased Representation Learning [7.183424522250937]
GERNE(Gradient Extrapolation for Debiased Representation Learning)は、未知の属性トレーニングケースと未知の属性トレーニングケースの両方において、バイアス付き表現を学習するように設計されている。
解析の結果,外挿した勾配がバッチ勾配に向けられた場合,緩やかな相関が小さくなると,脱バイアスモデルを学ぶためのトレーニングを効果的に導くことが示唆された。
論文 参考訳(メタデータ) (2025-03-17T14:48:57Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
ChatGPTのような現実世界のサービスでは、ユーザーフィードバックに基づいたモデルの調整がパフォーマンス向上に不可欠である。
既存のアライメント研究の多くは、ペアとして正と負の両方の反応を必要とする嗜好に基づくアプローチに依存している。
本稿では,バイナリフィードバックのみを用いてLLMを効果的に整合させる手法であるバイナリ最適化(BCO)を提案する。
論文 参考訳(メタデータ) (2024-04-06T15:20:59Z) - Guarding Barlow Twins Against Overfitting with Mixed Samples [27.7244906436942]
自己教師付き学習は、ラベル付きデータに頼ることなく、下流アプリケーションのための転送可能な特徴表現を学習することを目的としている。
線形補間標本を用いたBarlow Twinsトレーニングにおけるサンプルインタラクションの改善を目的としたMixed Barlow Twinsを紹介した。
論文 参考訳(メタデータ) (2023-12-04T18:59:36Z) - Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A
Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。
我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文 参考訳(メタデータ) (2023-07-04T09:35:03Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。