論文の概要: Adversarial Dual On-Policy Distillation from Expressive Teacher
- arxiv url: http://arxiv.org/abs/2605.27095v2
- Date: Mon, 01 Jun 2026 11:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.540434
- Title: Adversarial Dual On-Policy Distillation from Expressive Teacher
- Title(参考訳): 表現力のある教師の対訳 対訳 対訳 オン・ポリティクス
- Authors: Zhenglin Wan, Jingxuan Wu, Xingrui Yu, Chubin Zhang, Mingcong Lei, Bo An, Ivor W. Tsang, Yang You,
- Abstract要約: フローマッチングの教師は、デモから学び、軽量の学生と共同で訓練される。
教師は学生のロールアウトに2つの補完的な信号を提供します。
アクションチャネルは、学生が訪問する州で密集したローカルターゲットを提供し、搾取を安定化させる。
- 参考スコア(独自算出の注目度): 53.63143943452487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations in embodied control is often cast as behavioral cloning, and recent diffusion or flow-matching policies improve this paradigm by modeling multi-modal expert actions. Yet these methods remain offline supervised learners: the policy is trained only on expert states and receives no corrective signal on the states it actually visits. On-policy distillation (OPD) offers a natural remedy, but standard OPD assumes a strong fixed teacher, which is unavailable in demonstration-only control. We propose \textbf{FA-OPD}, an \emph{adversarial dual on-policy distillation} method in which a Flow Matching (FM) teacher is learned from demonstrations and co-trained with a lightweight MLP student. The teacher provides two complementary signals on student rollouts. The reward channel learns an expert-likeness objective over state-action pairs and drives online exploration through long-horizon policy optimization. The action channel supplies dense local targets at student-visited states, stabilizing exploitation. FA-OPD couples them so that reward distillation enables generalization beyond point-wise demonstrations, while action distillation keeps exploration anchored near expert-like behavior. Across six robot navigation, manipulation, and locomotion benchmarks, FA-OPD beats strong baselines and shows much stronger robustness under noisy or limited demonstrations. Source code: https://github.com/vanzll/FA-OPD.
- Abstract(参考訳): 具体的制御における実演から学ぶことは、しばしば行動的クローンとして見なされ、近年の拡散やフローマッチング政策は、マルチモーダルな専門家行動のモデリングによって、このパラダイムを改善している。
しかし、これらの方法はオフラインで教師付き学習者にとどまり、このポリシーは専門家の州でのみ訓練され、実際に訪れた州で矯正信号を受け取らない。
オンライン蒸留(OPD)は自然療法を提供するが、標準的なPDは強力な固定教師を前提としており、デモのみの制御では利用できない。
本稿では,フローマッチング(FM)の教師が実験から学習し,軽量MLP学生と共同で学習する,emph{adversarial dual on-policy distillation}法である「textbf{FA-OPD}」を提案する。
教師は学生のロールアウトに2つの補完的な信号を提供します。
報酬チャネルは、状態-作用ペアに対して専門家のような目的を学習し、長期ポリシー最適化を通じてオンライン探索を推進します。
アクションチャネルは、学生が訪問する州で密集したローカルターゲットを提供し、搾取を安定化させる。
FA-OPDは、報酬蒸留がポイントワイドなデモンストレーション以上の一般化を可能にするようにそれらを結合し、アクション蒸留は専門家のような行動の近くで探索を継続する。
6つのロボットナビゲーション、操作、ロコモーションベンチマークで、FA-OPDは強いベースラインを破り、ノイズや限られたデモの下ではより強い堅牢性を示す。
ソースコードはhttps://github.com/vanzll/FA-OPD。
関連論文リスト
- On-Policy Adversarial Flow Distillation for Autoregressive Video Generation [34.70887671905755]
逆流蒸留(英: Adversarial Flow Distillation、AFD)は、異種ブラックボックスビデオ蒸留のためのオンラインフレームワークである。
AFDは教師に問い合わせ、同じプロンプトで現在の生徒をロールアウトする。
AFDは、教師のスコア、潜伏者、軌道の騒音、ステップアライメント、逆鎖強化学習を必要とせず、高密度な速度場監視を提供する。
論文 参考訳(メタデータ) (2026-05-25T17:58:12Z) - Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation [43.020181623750865]
本稿では,MOTABにおけるモニタリングトラジェクトリとバックトラッキングを提案する。
MOTABは、適応的な安全境界に対して学生の政治世代を監視する。
LIMO-v2とAceReasonデータセットの実験により、MOTABは二重露光バイアスを効果的に緩和することが示された。
論文 参考訳(メタデータ) (2026-05-19T06:42:52Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Multi-Rollout On-Policy Distillation via Peer Successes and Failures [31.731266689209914]
大規模な言語モデルは、しばしばスパース検証器の報酬で訓練後、サンプルの軌道が成功するかどうかを示すが、推論が成功するか失敗するかについての限られたガイダンスを提供する。
オンライン蒸留(OPD)は、学生が生み出す軌跡の訓練により、より密集したトークンレベルの監督を提供する。
我々は,学生のローカルロールアウトグループを用いて,より情報のある教師信号を構築する,ピアコンディショニング蒸留フレームワークであるMulti-Rollout On-Policy Distillation (MOPD)を紹介した。
論文 参考訳(メタデータ) (2026-05-12T18:57:44Z) - Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Adversarial Prompt Distillation for Vision-Language Models [61.39214202062028]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。