論文の概要: Toward Robust Long Range Policy Transfer
- arxiv url: http://arxiv.org/abs/2103.02957v1
- Date: Thu, 4 Mar 2021 11:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:09:11.691174
- Title: Toward Robust Long Range Policy Transfer
- Title(参考訳): ロバスト長期政策移行に向けて
- Authors: Wei-Cheng Tseng, Jin-Siang Lin, Yao-Min Feng, Min Sun
- Abstract要約: 先行課題から学んだプリミティブポリシを組み合わせた階層モデルを提案する。
本稿では,階層構造を利用して組み合わせ関数を訓練し,多様な原始警察の集合を適応させる手法を提案する。
提案手法は,プリミティブの品質が変化すると,他の手法よりも常に優れることを示す。
- 参考スコア(独自算出の注目度): 25.549582991197855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can master a new task within a few trials by drawing upon skills
acquired through prior experience. To mimic this capability, hierarchical
models combining primitive policies learned from prior tasks have been
proposed. However, these methods fall short comparing to the human's range of
transferability. We propose a method, which leverages the hierarchical
structure to train the combination function and adapt the set of diverse
primitive polices alternatively, to efficiently produce a range of complex
behaviors on challenging new tasks. We also design two regularization terms to
improve the diversity and utilization rate of the primitives in the
pre-training phase. We demonstrate that our method outperforms other recent
policy transfer methods by combining and adapting these reusable primitives in
tasks with continuous action space. The experiment results further show that
our approach provides a broader transferring range. The ablation study also
shows the regularization terms are critical for long range policy transfer.
Finally, we show that our method consistently outperforms other methods when
the quality of the primitives varies.
- Abstract(参考訳): 人間は、経験を積んで得たスキルを活かして、数回の試行錯誤で新しいタスクをマスターできます。
この能力を模倣するために、事前タスクから学習した原始的ポリシーを組み合わせた階層モデルが提案されている。
しかし、これらの方法は人間の移動可能性の範囲と比較して短い。
そこで本稿では,階層構造を活用し,複合機能を訓練し,多種多様な原始警察を交互に適応させ,新しい課題に挑戦する上で,様々な複雑な行動を効率的に生み出す手法を提案する。
また,プリミティブの多様性と利用率を向上させるために,プリトレーニングフェーズにおける2つの正規化項を設計した。
提案手法は,タスク内のこれら再利用可能なプリミティブを連続的なアクション空間と組み合わせることで,他の最近のポリシー転送手法よりも優れることを示す。
実験の結果,提案手法がより広い転送範囲を提供することが示された。
アブレーション研究は、規則化条件が長期政策移行に重要であることも示している。
最後に,本手法は,プリミティブの品質が変化する場合,他の手法よりも常に優れることを示す。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Continual Learning via Sequential Function-Space Variational Inference [65.96686740015902]
連続学習を逐次関数空間変動推論として定式化した目的を提案する。
ニューラルネットワークの予測を直接正規化する目的と比較して、提案した目的はより柔軟な変動分布を可能にする。
タスクシーケンスの範囲で、逐次関数空間変動推論によってトレーニングされたニューラルネットワークは、関連する手法でトレーニングされたネットワークよりも予測精度が良いことを実証した。
論文 参考訳(メタデータ) (2023-12-28T18:44:32Z) - Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer [0.0]
与えられたタスクのすべての可能な解を見つけるための簡単な方法を提案する。
従来の手法とは異なり,本手法では新規性検出のための新たなモデルを学ぶ必要はない。
論文 参考訳(メタデータ) (2023-10-11T13:39:35Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Characterizing Policy Divergence for Personalized Meta-Reinforcement
Learning [4.716565301427257]
我々は、複数のエンティティのセットに対して、潜在的に異なる特性を持つ複数のエンティティに対して最適なポリシーを推奨する問題を考察する。
メタラーニングにおける既存の文献から着想を得たモデルフリーなメタラーニングアルゴリズムを提案する。
提案アルゴリズムは,逆強化学習における手法による過去の政策分岐を特徴付けることを含み,そのような指標が過去の政策パラメータを,それらが配置された環境によって効果的に識別できることを示す。
論文 参考訳(メタデータ) (2020-10-09T21:31:53Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Novel Policy Seeking with Constrained Optimization [131.67409598529287]
本稿では,強化学習課題における新しい政策作成の問題を再考する。
まず、政策間の差異を評価するための新しい指標を導入し、2つの実用的な政策生成手法を設計する。
The Constrained Task Novel Bisector (CTNB) and the internal Policy Differentiation (IPD) is derived from the fiable direction method and the interior point method known in the constrained optimization literature。
論文 参考訳(メタデータ) (2020-05-21T14:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。