論文の概要: Controlled Decoding from Language Models
- arxiv url: http://arxiv.org/abs/2310.17022v2
- Date: Tue, 13 Feb 2024 18:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:21:41.218245
- Title: Controlled Decoding from Language Models
- Title(参考訳): 言語モデルからのデコード制御
- Authors: Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and
Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael
Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami
- Abstract要約: KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。
本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。
- 参考スコア(独自算出の注目度): 36.072725402466595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KL-regularized reinforcement learning (RL) is a popular alignment framework
to control the language model responses towards high reward outcomes. We
propose a modular solver for this RL objective, called controlled decoding
(CD), which exerts control through a separate prefix scorer module. At training
time, the prefix scorer learns a value function for the reward, and it is used
at inference time to control the generation from a frozen base model, provably
sampling from a solution to the RL objective. We empirically demonstrate that
CD is effective as a control mechanism on popular benchmarks. We also show that
a single prefix scorer can learn multiple rewards and different reward
combinations can be configurable at inference time, effectively solving a
multi-objective RL problem with no additional training. We show that the
benefits of applying CD transfer to an unseen base model with no further
tuning. Finally, we show that CD can be applied in a blockwise decoding fashion
at inference-time, essentially bridging the gap between the popular best-of-$n$
strategy and token-level control through reinforcement learning. This makes CD
a promising approach for alignment of language models.
- Abstract(参考訳): KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。
本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。
トレーニング時、プレフィックススコアラは、報酬の値関数を学習し、解からrl目標へのサンプリングを可能とし、凍結ベースモデルから生成を制御するために、推論時に使用される。
一般的なベンチマークの制御機構としてCDが有効であることを示す。
また、プレフィックススコアラーは複数の報酬を学習でき、異なる報酬の組み合わせは推論時に設定可能であり、追加のトレーニングなしで多目的rl問題を効果的に解決できることを示した。
そこで本研究では,CD転送を未確認ベースモデルに適用する利点について述べる。
最後に、cdは推論時にブロック的なデコード形式で適用可能であり、基本的に人気のあるn$戦略と強化学習によるトークンレベルの制御とのギャップを埋める。
これにより、CDは言語モデルのアライメントに有望なアプローチとなる。
関連論文リスト
- Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think! [3.2031003471765285]
強化学習プラットフォームは、しばしばRLアルゴリズムの設計と訓練性能を強調するが、モデルと報酬関数の正しさを無視する。
本稿では,自動走行システムのモデリングに形式的手法を用い,RL for ADにおけるモデルチェック(MC)の活用方法を示す。
論文 参考訳(メタデータ) (2024-11-21T18:09:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。