論文の概要: Controlled Decoding from Language Models
- arxiv url: http://arxiv.org/abs/2310.17022v1
- Date: Wed, 25 Oct 2023 22:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:02:54.899341
- Title: Controlled Decoding from Language Models
- Title(参考訳): 言語モデルからのデコード制御
- Authors: Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and
Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael
Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami
- Abstract要約: 本稿では,言語モデルから高い報酬を得るための自己回帰生成を制御するための,非政治的強化学習手法を提案する。
Reddit会話コーパスの制御機構としてCDが有効であることを実証的に実証した。
トレーニング時間の変更を必要とせずに,CDを新しいブロックワイズで推論時に適用できることが示される。
- 参考スコア(独自算出の注目度): 36.072725402466595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose controlled decoding (CD), a novel off-policy reinforcement
learning method to control the autoregressive generation from language models
towards high reward outcomes. CD solves an off-policy reinforcement learning
problem through a value function for the reward, which we call a prefix scorer.
The prefix scorer is used at inference time to steer the generation towards
higher reward outcomes. We show that the prefix scorer may be trained on
(possibly) off-policy data to predict the expected reward when decoding is
continued from a partially decoded response. We empirically demonstrate that CD
is effective as a control mechanism on Reddit conversations corpus. We also
show that the modularity of the design of CD makes it possible to control for
multiple rewards, effectively solving a multi-objective reinforcement learning
problem with no additional complexity. Finally, we show that CD can be applied
in a novel blockwise fashion at inference-time, again without the need for any
training-time changes, essentially bridging the gap between the popular
best-of-$K$ strategy and token-level reinforcement learning. This makes CD a
promising approach for alignment of language models.
- Abstract(参考訳): 本研究では,言語モデルからの自己回帰生成を高報酬化に向けて制御する,新しいオフポリシー強化学習手法であるcontroled decoding (cd)を提案する。
cdは、プレフィックススコアラーと呼ばれる報酬の値関数を通じて、オフ・ポリティカル強化学習問題を解決します。
プレフィックススコアラは、より高い報酬結果に向けて生成を操るために、推論時に使用される。
プレフィックススコアは(多分)オフポリシーデータに基づいて訓練され、部分的に復号された応答から復号が継続された場合の期待報酬を予測することができる。
Reddit会話コーパスの制御機構としてCDが有効であることを示す。
また,cd設計のモジュール化により,複数報酬の制御が可能となり,複雑さを増すことなく,多目的強化学習問題を効果的に解決できることを示した。
最後に,CD は新たなブロックワイズ方式で推論時に適用可能であることを示し,トレーニング時間の変更を必要とせず,K$ の戦略とトークンレベルの強化学習のギャップを埋めることができることを示した。
これにより、CDは言語モデルのアライメントに有望なアプローチとなる。
関連論文リスト
- Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think! [3.2031003471765285]
強化学習プラットフォームは、しばしばRLアルゴリズムの設計と訓練性能を強調するが、モデルと報酬関数の正しさを無視する。
本稿では,自動走行システムのモデリングに形式的手法を用い,RL for ADにおけるモデルチェック(MC)の活用方法を示す。
論文 参考訳(メタデータ) (2024-11-21T18:09:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。