論文の概要: Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.06473v1
- Date: Sat, 15 Feb 2020 23:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:02:42.476937
- Title: Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning
- Title(参考訳): 模倣学習とゴール・コンディション強化学習のための普遍値密度推定
- Authors: Yannick Schroecker, Charles Isbell
- Abstract要約: いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
- 参考スコア(独自算出の注目度): 5.406386303264086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work considers two distinct settings: imitation learning and
goal-conditioned reinforcement learning. In either case, effective solutions
require the agent to reliably reach a specified state (a goal), or set of
states (a demonstration). Drawing a connection between probabilistic long-term
dynamics and the desired value function, this work introduces an approach which
utilizes recent advances in density estimation to effectively learn to reach a
given state. As our first contribution, we use this approach for
goal-conditioned reinforcement learning and show that it is both efficient and
does not suffer from hindsight bias in stochastic domains. As our second
contribution, we extend the approach to imitation learning and show that it
achieves state-of-the art demonstration sample-efficiency on standard benchmark
tasks.
- Abstract(参考訳): 本研究は,模倣学習と目標条件強化学習の2つの異なる設定を考察する。
いずれの場合も、効果的な解法はエージェントが特定の状態(ゴール)または一連の状態(デモ)に確実に到達する必要がある。
確率的長期ダイナミクスと所望の値関数との関係を描き,近年の密度推定の進歩を活かし,与えられた状態に到達するために効果的に学習する手法を提案する。
最初のコントリビューションとして、この手法を目標条件強化学習に使用し、これは効率的であり、確率的領域における後見バイアスに悩まされないことを示す。
第2の貢献として,模倣学習へのアプローチを拡張し,標準ベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
関連論文リスト
- Modeling of learning curves with applications to pos tagging [0.27624021966289597]
トレーニングベース全体の学習曲線の進化を推定するアルゴリズムを導入する。
学習手法とは無関係に,所望のタイミングで探索値を反復的に近似する。
本提案は, 作業仮説に関して正式に正しいことを証明し, 信頼性の高い近接条件を含む。
論文 参考訳(メタデータ) (2024-02-04T15:00:52Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Goal Recognition as Reinforcement Learning [20.651718821998106]
モデルレス強化学習と目標認識を組み合わせたフレームワークを開発する。
このフレームワークは、2つの主要なステージで構成されている。
その結果、標準評価領域における目標認識器に対する最先端の性能とノイズの多い環境における優れた性能が達成される。
論文 参考訳(メタデータ) (2022-02-13T16:16:43Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - Physical Reasoning Using Dynamics-Aware Models [32.402950370430496]
本研究は、オブジェクトダイナミクスに関する追加の監視信号で報酬価値を高めることにより、この制限に対処することを目的とする。
具体的には、2つの対象物の軌道間の距離測度を定義し、この距離測度を用いて2つの環境ロールアウトの類似性を特徴づける。
我々は、正しい報酬を予測することに加えて、この尺度に従ってロールアウトを正しくランク付けするようにモデルを訓練する。
論文 参考訳(メタデータ) (2021-02-20T12:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。