論文の概要: Introspective Action Advising for Interpretable Transfer Learning
- arxiv url: http://arxiv.org/abs/2306.12314v1
- Date: Wed, 21 Jun 2023 14:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:00:06.992939
- Title: Introspective Action Advising for Interpretable Transfer Learning
- Title(参考訳): 解釈可能な伝達学習のためのイントロスペクティブ・アクション・アドバイス
- Authors: Joseph Campbell, Yue Guo, Fiona Xie, Simon Stepputtis, Katia Sycara
- Abstract要約: 伝達学習は、目標タスクにおける政策の訓練を加速するために、深層強化学習に適用することができる。
本稿では,教師が目標課題における生徒の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。
- 参考スコア(独自算出の注目度): 7.673465837624365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning can be applied in deep reinforcement learning to accelerate
the training of a policy in a target task by transferring knowledge from a
policy learned in a related source task. This is commonly achieved by copying
pretrained weights from the source policy to the target policy prior to
training, under the constraint that they use the same model architecture.
However, not only does this require a robust representation learned over a wide
distribution of states -- often failing to transfer between specialist models
trained over single tasks -- but it is largely uninterpretable and provides
little indication of what knowledge is transferred. In this work, we propose an
alternative approach to transfer learning between tasks based on action
advising, in which a teacher trained in a source task actively guides a
student's exploration in a target task. Through introspection, the teacher is
capable of identifying when advice is beneficial to the student and should be
given, and when it is not. Our approach allows knowledge transfer between
policies agnostic of the underlying representations, and we empirically show
that this leads to improved convergence rates in Gridworld and Atari
environments while providing insight into what knowledge is transferred.
- Abstract(参考訳): 伝達学習は、深い強化学習に適用でき、関連するソースタスクで学んだポリシーから知識を伝達することで、目標タスクにおけるポリシーの訓練を加速することができる。
これは一般的に、ソースポリシーからトレーニング前のターゲットポリシーへの事前訓練された重み付けを、同じモデルアーキテクチャを使用するという制約の下でコピーすることで達成される。
しかし、これは幅広い状態分布で学習される堅牢な表現を必要とするだけでなく、しばしば単一のタスクで訓練された専門家モデル間の転送に失敗する。
本研究では,教師が目標課題の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。
イントロスペクションを通じて、教師は学生にいつアドバイスが有益なのか、与えるべきなのか、そうでないのかを特定できる。
このアプローチは,基盤となる表現によらない方針間の知識伝達を可能にし,グリッドワールドとatari環境における収束率の向上につながると同時に,どのような知識が伝達されるかに関する洞察を提供する。
関連論文リスト
- Similarity-based Knowledge Transfer for Cross-Domain Reinforcement
Learning [3.3148826359547523]
我々は,エンコーダ・デコーダのセットを用いて,異なる空間に適合する半教師付きアライメント損失を開発する。
従来の手法と比較して、我々の手法は専門家のポリシーによって整列、ペア化、あるいは収集されるデータを必要としない。
論文 参考訳(メタデータ) (2023-12-05T19:26:01Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。
本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文 参考訳(メタデータ) (2022-03-13T13:22:41Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。