論文の概要: Rubric-based On-policy Distillation
- arxiv url: http://arxiv.org/abs/2605.07396v1
- Date: Fri, 08 May 2026 07:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.90312
- Title: Rubric-based On-policy Distillation
- Title(参考訳): ルブリック系オン政治蒸留
- Authors: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua,
- Abstract要約: オンライン蒸留(OPD)はモデルアライメントの強力なパラダイムであるが、教師のロジットに依存しているため、ホワイトボックスのシナリオへの適用が制限される。
構造化された意味ルーブリックは教師のロジットに代わるスケーラブルな代替品として機能し,教師が生成した応答のみを用いてOPDを可能にする。
具体的には、ROPDは教師と学生のコントラストからプロンプト固有のルーリックを誘導し、これらのルーリックを使用して学生のロールアウトをオンライン最適化に活用する。
- 参考スコア(独自算出の注目度): 62.11106822527392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.
- Abstract(参考訳): オンライン蒸留(OPD)はモデルアライメントの強力なパラダイムであるが、教師のロジットに依存しているため、ホワイトボックスのシナリオへの適用が制限される。
構造化された意味ルーブリックは教師のロジットに代わるスケーラブルな代替品として機能し,教師が生成した応答のみを用いてOPDを可能にする。
ROPDは,ルーブリック型OPDの簡易かつ基礎的なフレームワークである。
具体的には、ROPDは教師と学生のコントラストからプロンプト固有のルーリックを誘導し、その後、これらのルーリックを使用して学生のロールアウトをオンラインの最適化のためにスコア付けする。
実証的には、ROPDは、ほとんどのシナリオで高度なロジットベースのOPDメソッドよりも優れており、サンプル効率の最大10倍のアップを実現している。
これらの結果は、ルーブリックベースのPDを、一般的なロジットベースのPDに代わる柔軟なブラックボックス互換の代替品として位置づけ、プロプライエタリでオープンソースのLCM間でスケーラブルな蒸留を行うための、シンプルながら強力なベースラインを提供する。
コードはhttps://github.com/Peregrine123/ROPD_officialで公開されている。
関連論文リスト
- Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation [7.2992280064983825]
オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
標準PDは、トレーニングを通してライブの教師推論サーバーを必要とし、その結果、かなりのインフラストラクチャーオーバーヘッドを発生させる。
我々は,教師の対数確率をSFTロールアウトにプリ計算することで教師の一貫性を強制するオフラインのオンライン蒸留フレームワークであるLightning OPDを提案する。
論文 参考訳(メタデータ) (2026-04-14T17:44:50Z) - FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - Aligning Distributionally Robust Optimization with Practical Deep Learning Needs [70.87757502315293]
従来のLearning (DL)メソッドはすべてのサンプルを平等に扱うが、DROと現在のDLプラクティスの間には大きなギャップがある。
本稿では,重み付けグループを扱える改良DRO目標に対する適応アルゴリズムを導入することにより,このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2025-08-22T18:17:44Z) - Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。