論文の概要: Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
- arxiv url: http://arxiv.org/abs/2508.07750v1
- Date: Mon, 11 Aug 2025 08:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.011059
- Title: Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
- Title(参考訳): 学習する; 学習する: 自己最適化的アライメントのための統一的アプローチ
- Authors: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu,
- Abstract要約: 我々は、SFT(教師付き微調整)とRL(強化学習)の強みを相乗化するための統一フレームワークであるGRAO(Group Relative Alignment Optimization)を提案する。
我々の理論解析はGRAOの収束保証と従来の手法に対するサンプル効率の優位性を確立するものである。
この研究は、理論上基礎付けられたアライメントフレームワークと、言語モデルにおける効率的な能力進化の実証的な証拠の両方を提供する。
- 参考スコア(独自算出の注目度): 24.296667264939515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.
- Abstract(参考訳): 言語モデルのアライメント機能を強化する重要な経路としてアライメント手法が登場した。
SFT(教師付き微調整)は直接トークンレベルの損失介入によって収束を加速するが、その効果はオフラインポリシー軌道によって制限される。
対照的に、RL(強化学習)は探索的なポリシー最適化を促進するが、サンプル効率が低く、高品質なベースモデルへの厳密な依存に悩まされる。
GRAO(Group Relative Alignment Optimization、グループ相対アライメント最適化)は、SFTとRLの各強みを3つの重要な革新を通じて相乗化するための統合フレームワークである。
1)報酬フィードバックによる比較品質評価が可能なマルチサンプル生成戦略
2 グループ内相対的優位重み付けを利用したグループ直列損失定式化
3) 参照型パラメータの更新には, ペアワイズ・リクエスト・ダイナミクスが有効である。
我々の理論解析はGRAOの収束保証と従来の手法に対するサンプル効率の優位性を確立するものである。
複雑な人間のアライメントタスクに対する総合的な評価は、GRAOの優れた性能を示し、それぞれ57.70\%,17.65\% 7.95\%および5.18\%の改善をSFT、DPO、PPO、GRPOのベースラインに対して達成した。
この研究は、理論上基礎付けられたアライメントフレームワークと、言語モデルにおける効率的な能力進化の実証的な証拠の両方を提供する。
関連論文リスト
- AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [5.748208737701793]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - PEO: Improving Bi-Factorial Preference Alignment with Post-Training Policy Extrapolation [5.347428263669927]
ポストトレーニング外挿最適化(PEO)は、二要素アライメントのための新しく効率的なフレームワークである。
PEOは3相パイプラインを利用して、1つのトレーニングパスで最適なポリシーのファミリーを生成する。
論文 参考訳(メタデータ) (2025-03-03T06:56:39Z) - Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。
tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。