論文の概要: UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following
- arxiv url: http://arxiv.org/abs/2509.25148v1
- Date: Mon, 29 Sep 2025 17:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.194772
- Title: UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following
- Title(参考訳): UniAPL: インストラクション・フォローのための統一された逆選好学習フレームワーク
- Authors: FaQiang Qian, WeiKun Zhang, Ziliang Wang, Kang An, Xuhui Zheng, Liangjian Wen, Mengya Gao, Yong Dai, Yichao Wu,
- Abstract要約: トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
- 参考スコア(独自算出の注目度): 12.924923059340395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shaping powerful LLMs to be beneficial and safe is central to AI alignment. We argue that post-training alignment is fundamentally a unified Preference Learning problem, involving two modalities: demonstrated preferences (e.g., Supervised Fine-Tuning, SFT) and comparative preferences (e.g., Reinforcement Learning, RL).The standard sequential pipeline-SFT followed by RL-is flawed due to a critical distributional mismatch: SFT uses static expert data, but as the policy evolves, its generation distribution drifts, making SFT knowledge brittle. Subsequent RL then explores without direct access to the rich, ground-truth knowledge in expert demonstrations, leading to inefficient, ungrounded updates. This separation prevents mutual regularization between data sources. To address this, we reframe alignment as a constrained optimization problem and propose Unified Adversarial Preference Learning (UniAPL),a novel framework that dynamically aligns the policy's distribution with the expert's. UniAPL implements a single-stage unified training objective, jointly learning from mixed batches of SFT and preference data. In every gradient step, dense expert demonstrations directly ground and regularize online exploration, inherently resolving distributional mismatch and maximizing data synergy.We evaluate UniAPL on instruction-following tasks using Qwen3-235B-Instruct-2507 as the teacher. Our models match or exceed strong GRPO baselines: +5.77% on Qwen3-0.6B (matching a 32B model) and +3.75% on Qwen3-4B,even outperforming the teacher. Analyses of response length and log-probability distributions confirm that UniAPL outputs closely mimic expert demonstrations, achieving both stronger performance and better behavioral alignment.
- Abstract(参考訳): 強力なLLMを有用かつ安全に形成することは、AIアライメントの中心である。
トレーニング後のアライメントは基本的に統一された選好学習問題であり,2つのモダリティ(例えば,スーパービジョンファインチューニング,SFT)と,比較選好(例えば,強化学習,RL)が関係している。
SFTは静的な専門家データを使用するが、ポリシーが進化するにつれて、その世代分布がドリフトし、SFTの知識は不安定になる。
その後RLは、専門家によるデモンストレーションにおいて、リッチで地味な知識に直接アクセスすることなく探索し、非効率で地味な更新をもたらす。
この分離により、データソース間の相互規則化が防止される。
これを解決するために、制約付き最適化問題としてアライメントを再構築し、専門家とポリシーの分布を動的に整合させる新しいフレームワークUnified Adversarial Preference Learning (UniAPL)を提案する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
教師としてQwen3-235B-Instruct-2507を用いた指導追従タスクにおけるUniAPLの評価を行った。
Qwen3-0.6Bでは+5.77%(32Bモデルに適合)、Qwen3-4Bでは+3.75%、教師では+3.75%である。
応答長と対数確率分布の分析により、UniAPLの出力が専門家による実証と密接に類似していることが確認され、より強力な性能とより優れた行動アライメントが達成される。
関連論文リスト
- Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training [61.1421888242439]
Supervised Fine-tuning (SFT) は計算効率が良いが、強化学習 (RL) に比べて一般化が劣ることが多い。
そこで我々は,オンポリシィSFTを有効にすることで,このシャームを橋渡しするフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T17:59:58Z) - Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only [70.43369087819332]
Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:02:13Z) - Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning [40.93098780862429]
基礎モデルファインチューニング(FT)における最強の結果は,比較的複雑な2段階の訓練手順によって達成されることを示す。
1つは、ダウンストリーム強化学習手順の一部としてオンラインフィードバックを提供するために使用する前に、あるデータセット(例えば人間の好み)に報酬モデル(RM)をトレーニングする。
我々は、生成検証ギャップの問題、比較的単純なRMを好みデータから学習することの容易さ、下流のRLプロシージャが探索空間を最適なポリシーのサブセットにフィルタリングする能力の組み合わせ、といった説明を最も支持している。
論文 参考訳(メタデータ) (2025-03-03T00:15:19Z) - SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning [3.4023074295549014]
Subtask-oriented Reinforced Fine-Tuning (SoRFT) は, LLMの問題解決能力を高めるための新しいトレーニング手法である。
SWE-Bench Verified と SWE-Bench Lite を用いたSORFT訓練モデルの評価を行い,オープンソースモデル間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:19:45Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。