論文の概要: CADENT: Gated Hybrid Distillation for Sample-Efficient Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02532v1
- Date: Wed, 28 Jan 2026 03:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.908602
- Title: CADENT: Gated Hybrid Distillation for Sample-Efficient Transfer in Reinforcement Learning
- Title(参考訳): CADENT:強化学習における試料効率向上のための混合蒸留法
- Authors: Mahyar Alinejad, Yue Wang, George Atia,
- Abstract要約: 本稿では,経験型トランスファー(CADENT)を用いた文脈認識蒸留について紹介する。
CADENTは戦略的オートマトンに基づく知識と戦術的政策レベルの知識をコヒーレントガイダンス信号に統合する。
CADENTは、挑戦的な環境全体にわたって、ベースラインよりも40-60%優れたサンプル効率を実現している。
- 参考スコア(独自算出の注目度): 3.1323488811721956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning promises to reduce the high sample complexity of deep reinforcement learning (RL), yet existing methods struggle with domain shift between source and target environments. Policy distillation provides powerful tactical guidance but fails to transfer long-term strategic knowledge, while automaton-based methods capture task structure but lack fine-grained action guidance. This paper introduces Context-Aware Distillation with Experience-gated Transfer (CADENT), a framework that unifies strategic automaton-based knowledge with tactical policy-level knowledge into a coherent guidance signal. CADENT's key innovation is an experience-gated trust mechanism that dynamically weighs teacher guidance against the student's own experience at the state-action level, enabling graceful adaptation to target domain specifics. Across challenging environments, from sparse-reward grid worlds to continuous control tasks, CADENT achieves 40-60\% better sample efficiency than baselines while maintaining superior asymptotic performance, establishing a robust approach for adaptive knowledge transfer in RL.
- Abstract(参考訳): トランスファーラーニングは、深層強化学習(RL)の高サンプルの複雑さを減らすことを約束するが、既存の手法はソースとターゲット環境の間のドメインシフトに苦労する。
政策蒸留は強力な戦術的ガイダンスを提供するが、長期的な戦略的な知識の伝達には失敗し、オートマトンベースの手法はタスク構造を捉えるが、きめ細かいアクションガイダンスは欠如している。
本稿では、戦略的オートマトンに基づく知識と戦術的政策レベルの知識を一体化してコヒーレントな誘導信号とするフレームワークであるCADENT(Context-Aware Distillation with Experience-gated Transfer)を紹介する。
CADENTの鍵となる革新は、経験に富んだ信頼メカニズムであり、生徒が状態アクションレベルで経験した経験に対して動的に教師の指導を重み付け、ターゲットのドメインに優雅な適応を可能にする。
スパース・リワードグリッドの世界から連続制御タスクに至るまで、課題のある環境全体にわたってCADENTは、優れた漸近的性能を維持しながら、ベースラインよりも40~60パーセント優れたサンプル効率を実現し、RLにおける適応的知識伝達のための堅牢なアプローチを確立した。
関連論文リスト
- Continual Knowledge Adaptation for Reinforcement Learning [37.4253231932861]
強化学習により、エージェントは環境との相互作用を通じて最適な行動を学ぶことができる。
歴史的知識の蓄積と有効活用を可能にする強化学習のための継続的知識適応(CKA-RL)を提案する。
3つのベンチマーク実験により、提案したCKA-RLは最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-10-22T07:25:41Z) - Transfer learning strategies for accelerating reinforcement-learning-based flow control [0.0]
本研究では,カオス流体の多相性制御のための深部強化学習(DRL)を高速化するための伝達学習戦略について検討する。
DRLベースのフロー制御の文脈で、プログレッシブニューラルネットワーク(PNN)が初めて使用される。
PNNは、事前の知識を保存し、一貫した性能向上を提供することにより、安定かつ効率的な転送を可能にする。
論文 参考訳(メタデータ) (2025-10-15T09:52:06Z) - FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。
これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。
本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文 参考訳(メタデータ) (2025-07-27T22:21:53Z) - Generalized Adaptive Transfer Network: Enhancing Transfer Learning in Reinforcement Learning Across Domains [11.705324423141606]
強化学習(RL)における伝達学習により、エージェントはソースタスクからの知識を活用して、ターゲットタスクでの学習を加速することができる。
本稿では、ドメイン間のタスクの一般化に取り組むために設計された深いRLアーキテクチャであるGeneralized Adaptive Transfer Network (GATN)を紹介する。
GATNはドメインに依存しない表現モジュール、堅牢性を認識したポリシーアダプタ、そしてこれらの目標を達成するための効率的な転送スケジューラを使用している。
論文 参考訳(メタデータ) (2025-07-02T21:33:48Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。