論文の概要: The Role of Exploration for Task Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.06168v1
- Date: Tue, 11 Oct 2022 01:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:01:57.537401
- Title: The Role of Exploration for Task Transfer in Reinforcement Learning
- Title(参考訳): 強化学習におけるタスク伝達の探索の役割
- Authors: Jonathan C Balloch and Julia Kim and and Jessica L Inman and Mark O
Riedl
- Abstract要約: 移行学習の文脈で、探索-探索-探索トレードオフを再検討する。
本研究は、強化学習探索手法をレビューし、それらを組織化する分類を定義し、これらの手法の違いをタスク転送の文脈で分析し、今後の研究への道筋を提案する。
- 参考スコア(独自算出の注目度): 8.817381809671804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exploration--exploitation trade-off in reinforcement learning (RL) is a
well-known and much-studied problem that balances greedy action selection with
novel experience, and the study of exploration methods is usually only
considered in the context of learning the optimal policy for a single learning
task. However, in the context of online task transfer, where there is a change
to the task during online operation, we hypothesize that exploration strategies
that anticipate the need to adapt to future tasks can have a pronounced impact
on the efficiency of transfer. As such, we re-examine the
exploration--exploitation trade-off in the context of transfer learning. In
this work, we review reinforcement learning exploration methods, define a
taxonomy with which to organize them, analyze these methods' differences in the
context of task transfer, and suggest avenues for future investigation.
- Abstract(参考訳): 強化学習における探索-探索トレードオフ(rl)は、欲望的な行動選択と新しい経験のバランスをとるよく知られ、広く研究されている問題であり、探索方法の研究は通常、単一学習タスクの最適方針を学ぶ文脈でのみ考慮される。
しかし、オンラインタスク転送の文脈では、オンライン操作中にタスクが変更される場合、将来のタスクに適応する必要性を期待する探索戦略が、転送効率に顕著な影響を及ぼす可能性があると仮定する。
したがって、転校学習の文脈において、探索・探索トレードオフを再検討する。
本研究では,強化学習探索法を概観し,それらを整理するための分類法を定義し,それらの方法のタスク転送の文脈における差異を分析し,今後の研究への道筋を提案する。
関連論文リスト
- Is Exploration All You Need? Effective Exploration Characteristics for Transfer in Reinforcement Learning [13.322146980081778]
我々は、オンライントランスファー学習に肯定的な影響を及ぼす特徴を特定するために、さまざまなトランスファータイプ(またはノベルティ')で11の人気のある探索アルゴリズムをテストする。
分析の結果,特定の環境変化に対してのみ伝達性能が向上するのに対し,その特性は幅広い伝達タスクにおける性能と効率の向上と相関していることがわかった。
論文 参考訳(メタデータ) (2024-04-02T18:45:01Z) - Similarity-based Knowledge Transfer for Cross-Domain Reinforcement
Learning [3.3148826359547523]
我々は,エンコーダ・デコーダのセットを用いて,異なる空間に適合する半教師付きアライメント損失を開発する。
従来の手法と比較して、我々の手法は専門家のポリシーによって整列、ペア化、あるいは収集されるデータを必要としない。
論文 参考訳(メタデータ) (2023-12-05T19:26:01Z) - Introspective Action Advising for Interpretable Transfer Learning [7.673465837624365]
伝達学習は、目標タスクにおける政策の訓練を加速するために、深層強化学習に適用することができる。
本稿では,教師が目標課題における生徒の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T14:53:33Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。