論文の概要: One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient
- arxiv url: http://arxiv.org/abs/2509.26313v1
- Date: Tue, 30 Sep 2025 14:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.162599
- Title: One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient
- Title(参考訳): ワン・ツーケン・ロールアウト:政策グラディエントによるLDMの微調整を指導する
- Authors: Rui Ming, Haoyuan Wu, Shoubo Hu, Zhuolun He, Bei Yu,
- Abstract要約: 政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
我々は,OTRを微調整LDMの強力で実用的な代替品として位置づけた。
- 参考スコア(独自算出の注目度): 16.05489579792086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) is the predominant method for adapting large language models (LLMs), yet it often struggles with generalization compared to reinforcement learning (RL). In this work, we posit that this performance disparity stems not just from the loss function, but from a more fundamental difference: SFT learns from a fixed, pre-collected dataset, whereas RL utilizes on-policy data sampled from the current policy. Building on this hypothesis, we introduce one-token rollout (OTR), a novel fine-tuning algorithm that guides SFT with the policy gradient method. OTR reframes the autoregressive learning process by treating each token generation as a single-step reinforcement learning trajectory. At each step, it performs a Monte Carlo ``rollout'' by sampling multiple candidate tokens from the current policy's distribution. The ground-truth token from the supervised data is then used to provide a reward signal to these samples. Guided by policy gradient, our algorithm repurposes static, off-policy supervised data into a dynamic, on-policy signal at the token level, capturing the generalization benefits of on-policy learning while bypassing the costly overhead of full sentence generation. Through extensive experiments on a diverse suite of challenging benchmarks spanning mathematical reasoning, code generation, and general domain reasoning, we demonstrate that OTR consistently outperforms standard SFT. Our findings establish OTR as a powerful and practical alternative for fine-tuning LLMs and provide compelling evidence that the on-policy nature of data is a critical driver of generalization, offering a promising new direction for fine-tuning LLMs.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は大規模言語モデル (LLM) を適応するための主要な手法であるが、強化学習 (RL) と比較して一般化に苦慮することが多い。
本研究では、この性能格差は損失関数だけでなく、より根本的な違いから生じると仮定する: SFTは固定された事前コンパイルされたデータセットから学習するが、RLは現在のポリシーからサンプリングされたオンラインデータを利用する。
この仮説に基づいて、政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
各ステップで、現在のポリシのディストリビューションから複数の候補トークンをサンプリングすることで、Monte Carlo ``rollout''を実行する。
次に、教師付きデータからの接地トラストークンを使用して、これらのサンプルに報酬信号を提供する。
このアルゴリズムは,静的で非政治的な教師付きデータをトークンレベルで動的にオンポエティな信号に再利用し,全文生成のコストのかかるオーバーヘッドを回避しつつ,オンポエティ学習の一般化の利点を捉える。
数学的推論,コード生成,一般領域推論を対象とする多種多様なベンチマークの実験を通じて,OTRが標準SFTを一貫して上回ることを示す。
我々は,OTRを微調整LSMの強力で実用的な代替手段として確立し,データのオン・ポリティクス性が一般化の重要な要因であることを示すとともに,微調整LSMの新たな方向性を期待できる。
関連論文リスト
- Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。