論文の概要: Reward Collapse in Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2305.17608v1
- Date: Sun, 28 May 2023 02:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:58:15.287101
- Title: Reward Collapse in Aligning Large Language Models
- Title(参考訳): 大規模言語モデルに付随する逆崩壊
- Authors: Ziang Song, Tianle Cai, Jason D. Lee, Weijie J. Su
- Abstract要約: 著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
- 参考スコア(独自算出の注目度): 64.98482888193267
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The extraordinary capabilities of large language models (LLMs) such as
ChatGPT and GPT-4 are in part unleashed by aligning them with reward models
that are trained on human preferences, which are often represented as rankings
of responses to prompts. In this paper, we document the phenomenon of
\textit{reward collapse}, an empirical observation where the prevailing
ranking-based approach results in an \textit{identical} reward distribution
\textit{regardless} of the prompts during the terminal phase of training. This
outcome is undesirable as open-ended prompts like ``write a short story about
your best friend'' should yield a continuous range of rewards for their
completions, while specific prompts like ``what is the capital of New Zealand''
should generate either high or low rewards. Our theoretical investigation
reveals that reward collapse is primarily due to the insufficiency of the
ranking-based objective function to incorporate prompt-related information
during optimization. This insight allows us to derive closed-form expressions
for the reward distribution associated with a set of utility functions in an
asymptotic regime. To overcome reward collapse, we introduce a prompt-aware
optimization scheme that provably admits a prompt-dependent reward distribution
within the interpolating regime. Our experimental results suggest that our
proposed prompt-aware utility functions significantly alleviate reward collapse
during the training of reward models.
- Abstract(参考訳): ChatGPTやGPT-4のような大きな言語モデル(LLM)の異常な能力は、人間の好みに基づいて訓練された報酬モデルと整合させることによって、部分的には解放される。
本稿では,一般的なランキングに基づくアプローチが,トレーニングの終盤におけるプロンプトの<textit{reward collapse}>分布を<textit{identical} reward distribution \textit{regardless}とする経験的観察である<textit{reward collapse}>の現象について述べる。
この結果が望ましくないのは、例えば『あなたの親友について短い物語を書く』のようなオープンエンドプロンプトは、その完成に対して連続的な報酬を与えるべきであり、『ニュージーランドの首都である』のような特定のプロンプトは、高いまたは低い報酬を生成するべきである。
我々の理論的調査により,報酬の崩壊は,主として最適化中にプロンプト関連情報を取り込むためのランキングに基づく客観的関数の不足によるものであることが明らかとなった。
この洞察により、漸近的な方法でユーティリティ関数の集合に付随する報酬分布に対する閉形式表現を導出することができる。
報酬の崩壊を克服するため,インタプリケーション・アウェア・最適化方式を導入し,インタプリケーション・レシスタンス内での報酬分布を確実に認める。
提案するプロンプトアウェア効用関数は,報酬モデルのトレーニング中の報酬崩壊を著しく軽減することが示唆された。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。