論文の概要: Controlled Decoding from Language Models
- arxiv url: http://arxiv.org/abs/2310.17022v2
- Date: Tue, 13 Feb 2024 18:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:21:41.218245
- Title: Controlled Decoding from Language Models
- Title(参考訳): 言語モデルからのデコード制御
- Authors: Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and
Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael
Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami
- Abstract要約: KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。
本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。
- 参考スコア(独自算出の注目度): 36.072725402466595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KL-regularized reinforcement learning (RL) is a popular alignment framework
to control the language model responses towards high reward outcomes. We
propose a modular solver for this RL objective, called controlled decoding
(CD), which exerts control through a separate prefix scorer module. At training
time, the prefix scorer learns a value function for the reward, and it is used
at inference time to control the generation from a frozen base model, provably
sampling from a solution to the RL objective. We empirically demonstrate that
CD is effective as a control mechanism on popular benchmarks. We also show that
a single prefix scorer can learn multiple rewards and different reward
combinations can be configurable at inference time, effectively solving a
multi-objective RL problem with no additional training. We show that the
benefits of applying CD transfer to an unseen base model with no further
tuning. Finally, we show that CD can be applied in a blockwise decoding fashion
at inference-time, essentially bridging the gap between the popular best-of-$n$
strategy and token-level control through reinforcement learning. This makes CD
a promising approach for alignment of language models.
- Abstract(参考訳): KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。
本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。
トレーニング時、プレフィックススコアラは、報酬の値関数を学習し、解からrl目標へのサンプリングを可能とし、凍結ベースモデルから生成を制御するために、推論時に使用される。
一般的なベンチマークの制御機構としてCDが有効であることを示す。
また、プレフィックススコアラーは複数の報酬を学習でき、異なる報酬の組み合わせは推論時に設定可能であり、追加のトレーニングなしで多目的rl問題を効果的に解決できることを示した。
そこで本研究では,CD転送を未確認ベースモデルに適用する利点について述べる。
最後に、cdは推論時にブロック的なデコード形式で適用可能であり、基本的に人気のあるn$戦略と強化学習によるトークンレベルの制御とのギャップを埋める。
これにより、CDは言語モデルのアライメントに有望なアプローチとなる。
関連論文リスト
- Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint [109.77895659878442]
強化学習(RL)は、大規模言語モデルの訓練に広く用いられている。
生成モデルを報酬モデルとして組み込んだ新しいRL法 textbfRLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。