論文の概要: Wasserstein Distance Maximizing Intrinsic Control
- arxiv url: http://arxiv.org/abs/2110.15331v1
- Date: Thu, 28 Oct 2021 17:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:19:27.322895
- Title: Wasserstein Distance Maximizing Intrinsic Control
- Title(参考訳): 固有制御を最大化するwasserstein距離
- Authors: Ishan Durugkar, Steven Hansen, Stephen Spencer, Volodymyr Mnih
- Abstract要約: 本稿では,報酬信号がない場合に有意義に機能するスキル条件付き政策を学習する問題に対処する。
このような目的は、多様性に基づく目的よりも、MDPのより多くの距離をカバーする政策につながることを示している。
- 参考スコア(独自算出の注目度): 14.963071654271756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with the problem of learning a skill-conditioned policy that
acts meaningfully in the absence of a reward signal. Mutual information based
objectives have shown some success in learning skills that reach a diverse set
of states in this setting. These objectives include a KL-divergence term, which
is maximized by visiting distinct states even if those states are not far apart
in the MDP. This paper presents an approach that rewards the agent for learning
skills that maximize the Wasserstein distance of their state visitation from
the start state of the skill. It shows that such an objective leads to a policy
that covers more distance in the MDP than diversity based objectives, and
validates the results on a variety of Atari environments.
- Abstract(参考訳): 本稿では,報酬信号がない場合に有意義に機能するスキル条件付き政策を学習する問題に対処する。
相互情報に基づく目標は、この設定において多様な状態に到達する学習スキルにいくつかの成功を示している。
これらの目的には、kl-divergence項が含まれており、mdpで遠く離れていない状態であっても、異なる状態を訪問することで最大化される。
本稿では,そのスキルの開始状態から来訪者のwasserstein距離を最大化する学習スキルに対して,エージェントを報奨する手法を提案する。
このような目的が,多様性に基づく目的よりもMDPの距離をカバーし,様々なアタリ環境において結果を検証する政策につながることを示す。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Local Explanations for Reinforcement Learning [14.87922813917482]
自動学習されたメタ状態から重要な状態を特定することに基づくRLポリシーを理解するための新しい視点を提案する。
メタ状態を求めるアルゴリズムが収束し,各メタ状態から重要な状態を選択する目的がサブモジュラーであることを示し,高品質なグレディ選択を実現する。
論文 参考訳(メタデータ) (2022-02-08T02:02:09Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。