論文の概要: Controlled Decoding from Language Models
- arxiv url: http://arxiv.org/abs/2310.17022v1
- Date: Wed, 25 Oct 2023 22:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:02:54.899341
- Title: Controlled Decoding from Language Models
- Title(参考訳): 言語モデルからのデコード制御
- Authors: Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and
Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael
Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami
- Abstract要約: 本稿では,言語モデルから高い報酬を得るための自己回帰生成を制御するための,非政治的強化学習手法を提案する。
Reddit会話コーパスの制御機構としてCDが有効であることを実証的に実証した。
トレーニング時間の変更を必要とせずに,CDを新しいブロックワイズで推論時に適用できることが示される。
- 参考スコア(独自算出の注目度): 36.072725402466595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose controlled decoding (CD), a novel off-policy reinforcement
learning method to control the autoregressive generation from language models
towards high reward outcomes. CD solves an off-policy reinforcement learning
problem through a value function for the reward, which we call a prefix scorer.
The prefix scorer is used at inference time to steer the generation towards
higher reward outcomes. We show that the prefix scorer may be trained on
(possibly) off-policy data to predict the expected reward when decoding is
continued from a partially decoded response. We empirically demonstrate that CD
is effective as a control mechanism on Reddit conversations corpus. We also
show that the modularity of the design of CD makes it possible to control for
multiple rewards, effectively solving a multi-objective reinforcement learning
problem with no additional complexity. Finally, we show that CD can be applied
in a novel blockwise fashion at inference-time, again without the need for any
training-time changes, essentially bridging the gap between the popular
best-of-$K$ strategy and token-level reinforcement learning. This makes CD a
promising approach for alignment of language models.
- Abstract(参考訳): 本研究では,言語モデルからの自己回帰生成を高報酬化に向けて制御する,新しいオフポリシー強化学習手法であるcontroled decoding (cd)を提案する。
cdは、プレフィックススコアラーと呼ばれる報酬の値関数を通じて、オフ・ポリティカル強化学習問題を解決します。
プレフィックススコアラは、より高い報酬結果に向けて生成を操るために、推論時に使用される。
プレフィックススコアは(多分)オフポリシーデータに基づいて訓練され、部分的に復号された応答から復号が継続された場合の期待報酬を予測することができる。
Reddit会話コーパスの制御機構としてCDが有効であることを示す。
また,cd設計のモジュール化により,複数報酬の制御が可能となり,複雑さを増すことなく,多目的強化学習問題を効果的に解決できることを示した。
最後に,CD は新たなブロックワイズ方式で推論時に適用可能であることを示し,トレーニング時間の変更を必要とせず,K$ の戦略とトークンレベルの強化学習のギャップを埋めることができることを示した。
これにより、CDは言語モデルのアライメントに有望なアプローチとなる。
関連論文リスト
- Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint [109.77895659878442]
強化学習(RL)は、大規模言語モデルの訓練に広く用いられている。
生成モデルを報酬モデルとして組み込んだ新しいRL法 textbfRLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。