論文の概要: Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models
- arxiv url: http://arxiv.org/abs/2601.20687v1
- Date: Wed, 28 Jan 2026 15:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.993972
- Title: Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models
- Title(参考訳): オンプレミス小モデルに対する正の非ラベル強化学習蒸留法
- Authors: Zhiqiang Kou, Junyang Chen, Xin-Qiang Cai, Xiaobo Xia, Ming-Kun Xie, Dong-Dong Wu, Biao Liu, Yuheng Jia, Xin Geng, Masashi Sugiyama, Tat-Seng Chua,
- Abstract要約: そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
- 参考スコア(独自算出の注目度): 130.8912476550625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to constraints on privacy, cost, and latency, on-premise deployment of small models is increasingly common. However, most practical pipelines stop at supervised fine-tuning (SFT) and fail to reach the reinforcement learning (RL) alignment stage. The main reason is that RL alignment typically requires either expensive human preference annotation or heavy reliance on high-quality reward models with large-scale API usage and ongoing engineering maintenance, both of which are ill-suited to on-premise settings. To bridge this gap, we propose a positive-unlabeled (PU) RL distillation method for on-premise small-model deployment. Without human-labeled preferences or a reward model, our method distills the teacher's preference-optimization capability from black-box generations into a locally trainable student. For each prompt, we query the teacher once to obtain an anchor response, locally sample multiple student candidates, and perform anchor-conditioned self-ranking to induce pairwise or listwise preferences, enabling a fully local training loop via direct preference optimization or group relative policy optimization. Theoretical analysis justifies that the induced preference signal by our method is order-consistent and concentrates on near-optimal candidates, supporting its stability for preference optimization. Experiments demonstrate that our method achieves consistently strong performance under a low-cost setting.
- Abstract(参考訳): プライバシ、コスト、レイテンシに制約があるため、小さなモデルのオンプレミス展開はますます一般的になっています。
しかし、ほとんどの実用的なパイプラインは教師付き微調整(SFT)で停止し、強化学習(RL)アライメントステージに到達できなかった。
主な理由は、RLアライメントは通常、高価な人間の好みのアノテーションか、大規模なAPI使用と継続的なエンジニアリングメンテナンスを伴う高品質な報酬モデルに大きく依存する必要があるためである。
このギャップを埋めるために,本研究では,オンプレミスの小型モデル展開のための正の未ラベル(PU)蒸留法を提案する。
そこで本手法では,教師の選好最適化能力をブラックボックス世代からローカルに学習可能な学生に抽出する。
各プロンプトに対して、教師にアンカー応答を取得し、複数の学生候補を局所的にサンプリングし、アンカー条件付き自己評価を行い、ペアワイドまたはリストワイドな選好を誘導し、直接選好最適化やグループ相対ポリシー最適化を通じて完全に局所的なトレーニングループを可能にする。
理論的解析により,提案手法による誘導された選好信号は順序整合であり,ほぼ最適候補に集中し,選好最適化の安定性を支えている。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。