論文の概要: Preference-free Alignment Learning with Regularized Relevance Reward
- arxiv url: http://arxiv.org/abs/2402.03469v1
- Date: Fri, 2 Feb 2024 11:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:13:24.642471
- Title: Preference-free Alignment Learning with Regularized Relevance Reward
- Title(参考訳): 正規化関連報酬を用いた選好フリーアライメント学習
- Authors: Sungdong Kim and Minjoon Seo
- Abstract要約: 人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を整合させる鍵と考えられてきた。
一般の信念とは対照的に、私たちの予備研究では、人間の嗜好データセットに基づいてトレーニングされた報酬モデルが、長いオフトピーの反応により高いスコアを与える傾向があることが明らかになった。
我々は、アライメントの鍵となる目的として「関連性」を利用した嗜好のないアプローチを探求する。
- 参考スコア(独自算出の注目度): 46.70226389831863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human preference has been considered key to aligning Large
Language Models (LLMs) with human values. However, contrary to popular belief,
our preliminary study reveals that reward models trained on human preference
datasets tend to give higher scores to long off-topic responses than short
on-topic ones. Motivated by this observation, we explore a preference-free
approach utilizing `relevance' as a key objective for alignment. On our first
attempt, we find that the relevance score obtained by a retriever alone is
vulnerable to reward hacking, i.e., overoptimizing to undesired shortcuts, when
we utilize the score as a reward for reinforcement learning. To mitigate it, we
integrate effective inductive biases into the vanilla relevance to regularize
each other, resulting in a mixture of reward functions: Regularized Relevance
Reward ($R^3$). $R^3$ significantly improves performance on preference
benchmarks by providing a robust reward signal. Notably, $R^3$ does not require
any human preference datasets (i.e., preference-free), outperforming
open-source reward models in improving human preference. Our analysis
demonstrates that $R^3$ has advantages in elevating human preference while
minimizing its side effects. Finally, we show the generalizability of $R^3$,
consistently improving instruction-tuned models in various backbones and sizes
without additional dataset cost. Our code is available at
https://github.com/naver-ai/RRR.
- Abstract(参考訳): 人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を一致させる鍵と考えられている。
しかし,人間好みデータセットで学習した報酬モデルでは,短所の話題外回答に対するスコアが短所よりも高い傾向がみられた。
この観察に動機づけられて,'関係' をアライメントの重要な目的とする,選好フリーなアプローチを探求する。
最初の試みでは、強化学習の報奨としてスコアを利用すると、レトリバーだけで得られる関連スコアが報酬ハッキング、すなわち望ましくないショートカットへの過剰最適化に対して脆弱であることが分かりました。
これを緩和するために、バニラ関係に効果的な帰納バイアスを組み込んで互いに正則化し、報奨関数を混合する: 正則化関連リワード(R^3$)。
r^3$は、ロバストな報酬信号を提供することで、プリファレンスベンチマークのパフォーマンスを大幅に改善する。
特に、$R^3$は、人間の嗜好を改善するために、人間の嗜好データセット(例えば、嗜好のない)を必要としない。
r^3$は人の好みを高めつつ副作用を最小限に抑える効果がある。
最後に、r^3$の汎用性を示し、追加のデータセットコストなしで様々なバックボーンやサイズでの命令調整モデルに一貫して改善する。
私たちのコードはhttps://github.com/naver-ai/rrrで利用可能です。
関連論文リスト
- Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization [32.5709529987173]
Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
本稿では,ドメイン知識を$varphi$に注入する新しい手法を提案する。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
論文 参考訳(メタデータ) (2024-02-23T18:05:06Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-30T16:58:30Z) - Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文 参考訳(メタデータ) (2023-10-03T21:58:24Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。
行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。
本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文 参考訳(メタデータ) (2021-11-08T05:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。