論文の概要: Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation
- arxiv url: http://arxiv.org/abs/2209.12029v2
- Date: Sat, 20 May 2023 08:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:47:30.985516
- Title: Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation
- Title(参考訳): クロスドメイン適応のための規則的振舞いパターンを用いたオープンエンディング多元解探索
- Authors: Kang Xu, Yan Ma, Bingsheng Wei, Wei Li
- Abstract要約: 多様な行動特性を持つ政策は、様々な相違のある下流環境に一般化することができる。
このような方針は、現実世界のシステムのような現実的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
本稿では,規制行動を用いた多彩な政策を訓練し,望ましいパターンを発見することを提案する。
- 参考スコア(独自算出の注目度): 5.090135391530077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning can achieve impressive results for complex
tasks, the learned policies are generally prone to fail in downstream tasks
with even minor model mismatch or unexpected perturbations. Recent works have
demonstrated that a policy population with diverse behavior characteristics can
generalize to downstream environments with various discrepancies. However, such
policies might result in catastrophic damage during the deployment in practical
scenarios like real-world systems due to the unrestricted behaviors of trained
policies. Furthermore, training diverse policies without regulation of the
behavior can result in inadequate feasible policies for extrapolating to a wide
range of test conditions with dynamics shifts. In this work, we aim to train
diverse policies under the regularization of the behavior patterns. We motivate
our paradigm by observing the inverse dynamics in the environment with partial
state information and propose Diversity in Regulation (DiR) training diverse
policies with regulated behaviors to discover desired patterns that benefit the
generalization. Considerable empirical results on various variations of
different environments indicate that our method attains improvements over other
diversity-driven counterparts.
- Abstract(参考訳): 強化学習は複雑なタスクで印象的な結果をもたらすが、学習されたポリシーは一般に、マイナーなモデルミスマッチや予期しない摂動を伴う下流タスクで失敗する傾向がある。
近年の研究では、多様な行動特性を持つ政策集団が、様々な相違のある下流環境に一般化できることが示されている。
しかし、そのような政策は、訓練された政策の制約のない行動のため、現実世界のシステムのような実践的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
さらに、行動の規制のない多様なポリシーの訓練は、ダイナミクスシフトを伴う幅広いテスト条件に外挿するための不適切なポリシーをもたらす可能性がある。
本研究では,行動パターンの規則化の下で多様な政策を訓練することを目的とする。
我々は,環境中の逆ダイナミクスを部分的状態情報で観察し,規制行動による多様な政策を訓練し,一般化に寄与する望ましいパターンを発見することを提案する。
異なる環境の様々なバリエーションに関する実験結果から,本手法が他の多様性駆動手法よりも改善できることが示唆された。
関連論文リスト
- Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks [0.40964539027092917]
本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。
本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
論文 参考訳(メタデータ) (2022-11-21T21:42:50Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Dual Behavior Regularized Reinforcement Learning [8.883885464358737]
強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。
本稿では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-19T00:47:18Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。