論文の概要: Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.12997v1
- Date: Mon, 25 Oct 2021 14:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 17:20:30.729597
- Title: Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning
- Title(参考訳): 強化学習における動的アウェア報酬を用いた教師なしドメイン適応
- Authors: Jinxin Liu, Hao Shen, Donglin Wang, Yachen Kang, Qiangxing Tian
- Abstract要約: 無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
- 参考スコア(独自算出の注目度): 28.808933152885874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised reinforcement learning aims to acquire skills without prior goal
representations, where an agent automatically explores an open-ended
environment to represent goals and learn the goal-conditioned policy. However,
this procedure is often time-consuming, limiting the rollout in some
potentially expensive target environments. The intuitive approach of training
in another interaction-rich environment disrupts the reproducibility of trained
skills in the target environment due to the dynamics shifts and thus inhibits
direct transferring. Assuming free access to a source environment, we propose
an unsupervised domain adaptation method to identify and acquire skills across
dynamics. Particularly, we introduce a KL regularized objective to encourage
emergence of skills, rewarding the agent for both discovering skills and
aligning its behaviors respecting dynamics shifts. This suggests that both
dynamics (source and target) shape the reward to facilitate the learning of
adaptive skills. We also conduct empirical experiments to demonstrate that our
method can effectively learn skills that can be smoothly deployed in target.
- Abstract(参考訳): 教師なし強化学習は、エージェントが目標を表現し、目標条件を学習するためのオープンな環境を自動で探索する、事前の目標表現なしでスキルを獲得することを目的としている。
しかし、この手順はしばしば時間がかかり、潜在的に高価なターゲット環境でのロールアウトを制限する。
他の相互作用に富んだ環境におけるトレーニングの直感的なアプローチは、ダイナミックスシフトによる目標環境におけるトレーニングスキルの再現性を阻害し、直接の転送を阻害する。
ソース環境への自由アクセスを仮定し、動的にスキルを識別し獲得するための教師なしドメイン適応手法を提案する。
特に,KLの正規化の対象は,スキルの出現を奨励し,エージェントにスキルの発見とダイナミックスシフトに関する行動の整合を報いる。
これは、ダイナミクス(ソースとターゲット)が報酬を形作り、適応スキルの学習を促進することを示唆している。
また,本手法が目標にスムーズに展開できるスキルを効果的に学習できることを実証する実験を行った。
関連論文リスト
- SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。