論文の概要: Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.05193v1
- Date: Thu, 07 Nov 2024 21:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:56:05.717387
- Title: Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
- Title(参考訳): Q-SFT: 教師付き微調整による言語モデルのQラーニング
- Authors: Joey Hong, Anca Dragan, Sergey Levine,
- Abstract要約: 価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 62.984693936073974
- License:
- Abstract: Value-based reinforcement learning (RL) can in principle learn effective policies for a wide range of multi-turn problems, from games to dialogue to robotic control, including via offline RL from static previously collected datasets. However, despite the widespread use of policy gradient methods to train large language models for single turn tasks (e.g., question answering), value-based methods for multi-turn RL in an off-policy or offline setting have proven particularly challenging to scale to the setting of large language models. This setting requires effectively leveraging pretraining, scaling to large architectures with billions of parameters, and training on large datasets, all of which represent major challenges for current value-based RL methods. In this work, we propose a novel offline RL algorithm that addresses these drawbacks, casting Q-learning as a modified supervised fine-tuning (SFT) problem where the probabilities of tokens directly translate to Q-values. In this way we obtain an algorithm that smoothly transitions from maximizing the likelihood of the data during pretraining to learning a near-optimal Q-function during finetuning. Our algorithm has strong theoretical foundations, enjoying performance bounds similar to state-of-the-art Q-learning methods, while in practice utilizing an objective that closely resembles SFT. Because of this, our approach can enjoy the full benefits of the pretraining of language models, without the need to reinitialize any weights before RL finetuning, and without the need to initialize new heads for predicting values or advantages. Empirically, we evaluate our method on both pretrained LLMs and VLMs, on a variety of tasks including both natural language dialogue and robotic manipulation and navigation from images.
- Abstract(参考訳): バリューベース強化学習(RL)は、ゲームから対話、ロボット制御に至るまで、さまざまなマルチターン問題の効果的なポリシを原則として学習することができる。
しかし、単一ターンタスク(例えば、質問応答)のための大規模言語モデルのトレーニングにポリシー勾配法が広く用いられているにもかかわらず、オフ・ポリティクスやオフライン設定におけるマルチターンRLの値ベースの手法は、特に大規模言語モデルの設定にスケールすることが困難であることが証明されている。
この設定では、事前トレーニング、数十億のパラメータを持つ大規模アーキテクチャへのスケーリング、大規模なデータセットのトレーニングを効果的に活用する必要があります。
本研究では、これらの欠点に対処する新しいオフラインRLアルゴリズムを提案し、トークンの確率が直接Q値に変換されるように、Q-ラーニングを改良された教師付き微調整(SFT)問題とみなす。
このようにして、事前学習中のデータの可能性の最大化から、微調整中の準最適Q-関数の学習へ円滑に移行するアルゴリズムを得る。
提案アルゴリズムは,従来のQ-ラーニング手法と同様の性能バウンダリを享受すると同時に,SFTによく似た目的を実際に活用する。
これにより,言語モデルの事前学習のメリットを十分に享受することができ,RL微調整前に重みを再初期化する必要がなく,また,値や利点を予測するために新たなヘッダを初期化する必要がなくなる。
実験により, 自然言語対話やロボット操作, 画像からのナビゲーションなど, 様々なタスクにおいて, 予め訓練したLLMとVLMの両方で評価を行った。
関連論文リスト
- Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。