Fugu-MT 論文翻訳(概要): Controlled Decoding from Language Models

論文の概要: Controlled Decoding from Language Models

arxiv url: http://arxiv.org/abs/2310.17022v2
Date: Tue, 13 Feb 2024 18:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 19:21:41.218245
Title: Controlled Decoding from Language Models
Title（参考訳）: 言語モデルからのデコード制御
Authors: Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami
Abstract要約: KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。
参考スコア（独自算出の注目度）: 36.072725402466595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: KL-regularized reinforcement learning (RL) is a popular alignment framework to control the language model responses towards high reward outcomes. We propose a modular solver for this RL objective, called controlled decoding (CD), which exerts control through a separate prefix scorer module. At training time, the prefix scorer learns a value function for the reward, and it is used at inference time to control the generation from a frozen base model, provably sampling from a solution to the RL objective. We empirically demonstrate that CD is effective as a control mechanism on popular benchmarks. We also show that a single prefix scorer can learn multiple rewards and different reward combinations can be configurable at inference time, effectively solving a multi-objective RL problem with no additional training. We show that the benefits of applying CD transfer to an unseen base model with no further tuning. Finally, we show that CD can be applied in a blockwise decoding fashion at inference-time, essentially bridging the gap between the popular best-of-$n$ strategy and token-level control through reinforcement learning. This makes CD a promising approach for alignment of language models.
Abstract（参考訳）: KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。トレーニング時、プレフィックススコアラは、報酬の値関数を学習し、解からrl目標へのサンプリングを可能とし、凍結ベースモデルから生成を制御するために、推論時に使用される。一般的なベンチマークの制御機構としてCDが有効であることを示す。また、プレフィックススコアラーは複数の報酬を学習でき、異なる報酬の組み合わせは推論時に設定可能であり、追加のトレーニングなしで多目的rl問題を効果的に解決できることを示した。そこで本研究では,CD転送を未確認ベースモデルに適用する利点について述べる。最後に、cdは推論時にブロック的なデコード形式で適用可能であり、基本的に人気のあるn$戦略と強化学習によるトークンレベルの制御とのギャップを埋める。これにより、CDは言語モデルのアライメントに有望なアプローチとなる。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文参考訳（メタデータ） (2025-06-02T06:54:29Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think! [3.2031003471765285]
強化学習プラットフォームは、しばしばRLアルゴリズムの設計と訓練性能を強調するが、モデルと報酬関数の正しさを無視する。本稿では,自動走行システムのモデリングに形式的手法を用い,RL for ADにおけるモデルチェック(MC)の活用方法を示す。
論文参考訳（メタデータ） (2024-11-21T18:09:20Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文参考訳（メタデータ） (2024-04-18T17:37:02Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文参考訳（メタデータ） (2021-01-20T11:23:35Z)
Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文参考訳（メタデータ） (2021-01-18T17:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。