論文の概要: Online Policy Distillation with Decision-Attention
- arxiv url: http://arxiv.org/abs/2406.05488v1
- Date: Sat, 8 Jun 2024 14:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:25:53.309092
- Title: Online Policy Distillation with Decision-Attention
- Title(参考訳): 意思決定を考慮したオンライン政策蒸留
- Authors: Xinqiang Yu, Chuanguang Yang, Chengqing Yu, Libo Huang, Zhulin An, Yongjun Xu,
- Abstract要約: 政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
- 参考スコア(独自算出の注目度): 23.807761525617384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Distillation (PD) has become an effective method to improve deep reinforcement learning tasks. The core idea of PD is to distill policy knowledge from a teacher agent to a student agent. However, the teacher-student framework requires a well-trained teacher model which is computationally expensive.In the light of online knowledge distillation, we study the knowledge transfer between different policies that can learn diverse knowledge from the same environment.In this work, we propose Online Policy Distillation (OPD) with Decision-Attention (DA), an online learning framework in which different policies operate in the same environment to learn different perspectives of the environment and transfer knowledge to each other to obtain better performance together. With the absence of a well-performance teacher policy, the group-derived targets play a key role in transferring group knowledge to each student policy. However, naive aggregation functions tend to cause student policies quickly homogenize. To address the challenge, we introduce the Decision-Attention module to the online policies distillation framework. The Decision-Attention module can generate a distinct set of weights for each policy to measure the importance of group members. We use the Atari platform for experiments with various reinforcement learning algorithms, including PPO and DQN. In different tasks, our method can perform better than an independent training policy on both PPO and DQN algorithms. This suggests that our OPD-DA can transfer knowledge between different policies well and help agents obtain more rewards.
- Abstract(参考訳): 政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
PDの中核となる考え方は、政策知識を教師エージェントから学生エージェントに蒸留することである。
しかし,教師教育の枠組みには,計算コストの高い教師モデルが必要であり,オンライン知識の蒸留により,同じ環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。本研究では,異なる政策を同一環境内で動作させるオンライン学習フレームワークであるオンライン政策蒸留(OPD, Online Policy Distillation)を提案する。
成績のよい教師政策が欠如しているため、各生徒の方針に集団知識を移す上で、グループ由来の目標が重要な役割を果たしている。
しかし、ナイーブアグリゲーション機能は生徒の政策を急速に均質化する傾向がある。
この課題に対処するため、オンライン政策蒸留フレームワークにDecision-Attentionモジュールを導入する。
Decision-Attentionモジュールは、各ポリシーに対して異なる重みセットを生成して、グループメンバーの重要性を測定することができる。
我々は、PPOやDQNなど、さまざまな強化学習アルゴリズムの実験にAtariプラットフォームを使用します。
異なるタスクにおいて,本手法はPPOアルゴリズムとDQNアルゴリズムの両方の独立トレーニングポリシーよりも優れた性能を発揮する。
このことは、OPD-DAが異なる政策間で知識をうまく伝達し、エージェントがより多くの報酬を得るのに役立つことを示唆している。
関連論文リスト
- Policy composition in reinforcement learning via multi-objective policy
optimization [44.23907077052036]
教師の政策が学習のスピードアップ,特に報酬形成の欠如に有効であることを示す。
ヒューマノイド領域では、エージェントに教師の選択を制御する能力も備えている。
論文 参考訳(メタデータ) (2023-08-29T17:50:27Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Policy Expansion for Bridging Offline-to-Online Reinforcement Learning [20.24902196844508]
本稿では,この課題に対する政策拡張スキームを紹介する。
オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。
そして、さらなる学習に責任を持つ別の政策で政策を拡大します。
論文 参考訳(メタデータ) (2023-02-02T08:25:12Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。