論文の概要: Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation
- arxiv url: http://arxiv.org/abs/2605.27115v1
- Date: Tue, 26 May 2026 14:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.277028
- Title: Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation
- Title(参考訳): ドメイン保存による一般能力回復のための対作用を考慮したマルチ教師のオンライン蒸留
- Authors: Tianlei Chen, Jiao Ou, Ziyuan Liu, Ruiming Tang, Jian Liang, Han Li,
- Abstract要約: 本稿では,簡単に利用できるプロキシ・ジェネラル・プロンプトを用いて,汎用性回復について検討する。
対作用を考慮した多教師オンポリシィ蒸留(CaMOPD)を提案する。
CaMOPDは、一般的なリカバリ専用のアップデートを提供し、定期的にドメインプロンプトをレビューし、平均的なトークンレベルの教師と学生の対数確率ギャップを持つサンプルを選択して、修正信号を集中させる。
- 参考スコア(独自算出の注目度): 47.05508330159435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain specialization can improve LLM behavior in vertical domains, but often weakens the general capabilities inherited from the original model. Recent Multi-Teacher On-Policy Distillation (MOPD) pipelines recover model capabilities by supervising student-generated trajectories with teacher feedback, but typically assume teacher-aligned prompt coverage, requiring prompts to match the teachers' training distributions. This assumption is difficult to satisfy when the general teacher is an open-source model whose post-training data are unknown. Instead of attempting to reconstruct this hidden distribution, we study general capability recovery with readily available proxy general prompts. We identify two failure modes of vanilla MOPD in this incomplete-coverage situation: recovery-preservation counteraction from mixing conflicting recovery and preservation gradients, and weak-signal flattening from uniformly averaging samples with unequal correction demand. We propose Counteraction-Aware Multi-Teacher On-Policy Distillation (CaMOPD), which addresses these issues with decoupled alternating training and gap-based sample selection. CaMOPD gives general recovery dedicated updates, periodically reviews domain prompts for preservation, and selects samples with larger averaged token-level teacher-student log-probability gaps to concentrate correction signals. Across role-play dialogue and medical reasoning QA scenarios, CaMOPD performs best in general recovery over baselines while maintaining domain-specific behavior. Gradient coherence analyses further support the intended effect of CaMOPD in producing more coherent correction signals.
- Abstract(参考訳): ドメインの特殊化は垂直領域におけるLCMの挙動を改善することができるが、しばしば元のモデルから受け継いだ一般的な能力を弱める。
最近のMulti-Teacher On-Policy Distillation (MOPD) パイプラインは、教師のフィードバックで生徒が生成した軌跡を監督することによってモデル能力を回復するが、通常は教師の指導分布に合わせたプロンプトを必要とする。
この仮定は、一般教師が学習後データが不明なオープンソースモデルである場合、満足できない。
隠れた分布を再構築する代わりに、容易に利用可能なプロキシ・ジェネラル・プロンプトを用いて、一般的な機能回復について検討する。
不完全被覆状態におけるバニラMOPDの障害モードは, 回復と保存の勾配を混合したリカバリ保存対策と, 不等補正要求のある一様平均化試料からの弱信号平坦化の2つである。
本稿では, 相互交互学習とギャップベースサンプル選択を併用したCaMOPD (Counteraction-Aware Multi-Teacher On-Policy Distillation) を提案する。
CaMOPDは、一般的なリカバリ専用のアップデートを提供し、定期的にドメインプロンプトをレビューし、平均的なトークンレベルの教師と学生の対数確率ギャップを持つサンプルを選択して、修正信号を集中させる。
ロールプレイ対話と医療推論QAのシナリオを通じて、CaMOPDはドメイン固有の振る舞いを維持しながら、ベースラインよりも一般的に回復する。
グラディエントコヒーレンス解析は、よりコヒーレントな補正信号を生成する際のCaMOPDの意図した効果をさらに支持する。
関連論文リスト
- Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards [20.896576101848655]
本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。
本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
論文 参考訳(メタデータ) (2026-01-22T03:15:57Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Toward Generalist Semi-supervised Regression via Decoupled Representation Distillation [8.645821347784835]
半教師付き回帰作業のためのエンドツーエンドデカップリング型表現蒸留フレームワーク(DRILL)について紹介する。
提案したDRILLは強力な一般化を持ち、競合する手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-12T22:11:01Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。