論文の概要: Debiasing Reward Models by Representation Learning with Guarantees
- arxiv url: http://arxiv.org/abs/2510.23751v1
- Date: Mon, 27 Oct 2025 18:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.416306
- Title: Debiasing Reward Models by Representation Learning with Guarantees
- Title(参考訳): 保証者による表現学習による逆流モデルのデバイアス化
- Authors: Ignavier Ng, Patrick Blöbaum, Siddharth Bhandari, Kun Zhang, Shiva Kasiviswanathan,
- Abstract要約: 本稿では,報酬モデルにおける素早い相関問題を緩和する原理的枠組みを提案する。
本研究では, 余剰潜伏変数のサロゲートが利用できるかどうかに関わらず, 理論上はデータから非純粋潜伏変数を識別可能であることを示す。
合成および実世界のデータセットに関する実験により、我々の手法は効果的な相関問題を緩和し、より堅牢な報酬モデルが得られることを示した。
- 参考スコア(独自算出の注目度): 20.170532007501883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent alignment techniques, such as reinforcement learning from human feedback, have been widely adopted to align large language models with human preferences by learning and leveraging reward models. In practice, these models often exploit spurious correlations, involving, e.g., response length, discrimination, sycophancy, and conceptual bias, which is a problem that has received increasing attention. In this work, we propose a principled framework that mitigates these biases in reward models while preserving the underlying factors that reflect intended preferences. We first provide a formulation of the data-generating process, assuming that the observed data (e.g., text) is generated from both spurious and non-spurious latent variables. We show that, interestingly, these non-spurious latent variables can be theoretically identified from data, regardless of whether a surrogate for the spurious latent variables is available. This further inspires a practical method that uses variational inference to recover these variables and leverages them to train reward models. Experiments on synthetic and real-world datasets demonstrate that our method effectively mitigates spurious correlation issues and yields more robust reward models.
- Abstract(参考訳): 人間のフィードバックからの強化学習のような最近のアライメント技術は、大きな言語モデルと人間の好みを一致させるために広く採用され、学習と報酬モデルを活用する。
実際には、これらのモデルは、例えば、応答長、識別、薬局性、概念バイアスといった、注目を集めている問題を含む、急激な相関性を利用することが多い。
本研究では、これらのバイアスを報酬モデルで軽減し、意図された嗜好を反映した基本的な要因を保存する原則的枠組みを提案する。
まずデータ生成過程の定式化を行い、観測されたデータ(例:テキスト)がスプリアス変数と非スパーラス変数の両方から生成されることを仮定する。
興味深いことに、スプリアス潜伏変数のサロゲートが利用できるかどうかに関わらず、これらの非スパース潜伏変数は理論上はデータから識別可能である。
これはさらに、変分推論を使ってこれらの変数を復元し、それらを利用して報酬モデルを訓練する実践的な方法にインスピレーションを与える。
合成および実世界のデータセットに関する実験により、我々の手法は効果的な相関問題を緩和し、より堅牢な報酬モデルが得られることを示した。
関連論文リスト
- Improving Group Robustness on Spurious Correlation via Evidential Alignment [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な相関、すなわち非因果的特徴と標的の間の表面的関連を学習し、依存する。
既存のメソッドは通常、外部のグループアノテーションや補助的な決定論的モデルを使用することでこの問題を軽減する。
偏りのあるモデルの振る舞いを理解するために不確実性定量化を利用する新しいフレームワークであるエビデンシャルアライメントを提案する。
論文 参考訳(メタデータ) (2025-06-12T22:47:21Z) - Reward Model Interpretability via Optimal and Pessimal Tokens [4.951383975460995]
リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
論文 参考訳(メタデータ) (2025-06-08T23:56:58Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement [20.41752850243945]
統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T13:16:18Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。