論文の概要: Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
- arxiv url: http://arxiv.org/abs/2510.21090v1
- Date: Fri, 24 Oct 2025 02:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.356785
- Title: Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
- Title(参考訳): 自己回帰型PPO: デモのみによる大規模言語モデルの調整
- Authors: Qingru Zhang, Liang Qiu, Ilgee Hong, Zhenghao Xu, Tianyi Liu, Shiyang Li, Rongzhi Zhang, Zheng Li, Lihong Li, Bing Yin, Chao Zhang, Jianshu Chen, Haoming Jiang, Tuo Zhao,
- Abstract要約: Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
- 参考スコア(独自算出の注目度): 70.43369087819332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) has emerged as a crucial method for aligning large language models (LLMs) with human-annotated demonstrations. However, SFT, being an off-policy approach similar to behavior cloning, often struggles with overfitting and poor out-of-domain generalization, especially in limited-data scenarios. To address these limitations, we propose Self-Rewarding PPO, a novel fine-tuning method that leverages on-policy techniques to enhance generalization performance. Our approach combines the strengths of SFT and proximal policy optimization (PPO) to achieve more effective alignment from demonstration data. At its core is a reward function designed as the log policy ratio between the SFT model and the pretrained base model. This function serves as an implicit reward signal, using the pretrained policy as a baseline and the SFT policy as a target. By doing so, it enables on-policy fine-tuning without relying on human preference annotations. The integration of this self-rewarding mechanism with PPO addresses key limitations of SFT, improving generalization, data efficiency, and robustness. Our empirical evaluation across a range of natural language processing tasks demonstrates that Self-Rewarding PPO consistently outperforms traditional SFT methods. The results highlight the effectiveness of our approach in aligning LLMs using demonstration data, particularly in scenarios where high-quality annotated data is scarce.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大型言語モデル(LLM)と人間のアノテーションによる実演を整合させる重要な手法として登場した。
しかしながら、SFTは行動クローニングと類似した非政治的なアプローチであり、特に限られたデータシナリオにおいて、オーバーフィットとドメイン外の一般化に苦慮することが多い。
これらの制約に対処するため, 自己回帰型PPOを提案する。
提案手法は,実証データからより効果的なアライメントを実現するために,SFTとPPOの長所を組み合わせたものである。
中心となるのは、SFTモデルと事前訓練されたベースモデルのログポリシー比として設計された報酬関数である。
この機能は、事前訓練されたポリシーをベースラインとして、SFTポリシーをターゲットとして、暗黙の報酬信号として機能する。
これにより、人間の好みのアノテーションに頼ることなく、政治上の微調整が可能になる。
この自己回帰機構とPPOの統合は、SFTの重要な制限に対処し、一般化、データ効率、堅牢性を改善する。
自然言語処理タスクにおける経験的評価は、自己回帰型PPOが従来のSFT手法よりも一貫して優れていることを示す。
その結果,特に高品質な注釈付きデータが不足するシナリオにおいて,実演データを用いたLLMの整列化におけるアプローチの有効性を強調した。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。