論文の概要: Reward Gaming in Conditional Text Generation
- arxiv url: http://arxiv.org/abs/2211.08714v1
- Date: Wed, 16 Nov 2022 07:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:45:02.358384
- Title: Reward Gaming in Conditional Text Generation
- Title(参考訳): 条件付きテキスト生成における報酬ゲーム
- Authors: Richard Yuanzhe Pang, Vishakh Padmakumar, Thibault Sellam, Ankur P.
Parikh, He He
- Abstract要約: 好ましくないパターンに高い報酬が誤って割り当てられる3つの一般的なケースを強調します。
学習指標は報奨関数の学習に使用されるデータの分布において高い性能を発揮するが、強化学習訓練では望ましくないパターンが増幅される可能性があることを示す。
- 参考スコア(独自算出の注目度): 23.975049660370345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To align conditional text generation model outputs with desired behaviors,
there has been an increasing focus on training the model using reinforcement
learning (RL) with reward functions learned from human annotations. Under this
framework, we identify three common cases where high rewards are incorrectly
assigned to undesirable patterns: noise-induced spurious correlation, naturally
occurring spurious correlation, and covariate shift. We show that even though
learned metrics achieve high performance on the distribution of the data used
to train the reward function, the undesirable patterns may be amplified during
RL training of the text generation model. While there has been discussion about
reward gaming in the RL or safety community, in this short discussion piece, we
would like to highlight reward gaming in the NLG community using concrete
conditional text generation examples and discuss potential fixes and areas for
future work.
- Abstract(参考訳): 条件付きテキスト生成モデル出力を所望の動作に合わせるため,人間アノテーションから学習した報酬関数と強化学習(RL)を用いたモデルのトレーニングに注目が集まっている。
この枠組みでは,ノイズ誘発スプリアス相関,自然発生スプリアス相関,共変量シフトという,望ましくないパターンに対して高い報酬が誤って割り当てられる一般的な3つの事例を同定する。
学習した指標が報酬関数のトレーニングに使用されるデータの分布において高いパフォーマンスを達成しても,テキスト生成モデルのrlトレーニング中に望ましくないパターンが増幅される可能性がある。
RLや安全コミュニティでは報酬ゲームが議論されているが、この短い議論記事では、具体的条件付きテキスト生成例を用いてNLGコミュニティの報酬ゲームを強調し、今後の作業の潜在的な修正や領域について議論したい。
関連論文リスト
- Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Joint Retrieval and Generation Training for Grounded Text Generation [75.11057157342974]
基底生成モデルは救済策を提供するように見えるが、トレーニングは通常、まれな並列データに依存している。
本研究では,言語モデル信号に接地生成器と文書検索器を共同で訓練することにより,この制約を緩和するフレームワークを提案する。
提案手法は,外部参照を活用することで,文末生成と対話生成の両面で,より情報に富んだ興味深いテキストを生成できることを実証する。
論文 参考訳(メタデータ) (2021-05-14T00:11:38Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。