論文の概要: Behavior From the Void: Unsupervised Active Pre-Training
- arxiv url: http://arxiv.org/abs/2103.04551v1
- Date: Mon, 8 Mar 2021 05:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:28:19.132622
- Title: Behavior From the Void: Unsupervised Active Pre-Training
- Title(参考訳): ボイドからの挙動:教師なしアクティブプレトレーニング
- Authors: Liu Hao and Abbeel Pieter
- Abstract要約: APT(Active Pre-Training)と呼ばれる強化学習のための新しい教師なしプリトレーニング方法を紹介します。
我々は、長期の教師なし事前訓練フェーズの後、タスク固有の報酬を露出させることで、aptを評価する。
Atariゲームでは、12ゲームでのAPT人間レベルのパフォーマンスは、正規の完全監視アルゴリズムと比較して非常に競争力のあるパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new unsupervised pre-training method for reinforcement
learning called APT, which stands for Active Pre-Training. APT learns behaviors
and representations by actively searching for novel states in reward-free
environments. The key novel idea is to explore the environment by maximizing a
non-parametric entropy computed in an abstract representation space, which
avoids the challenging density modeling and consequently allows our approach to
scale much better in environments that have high-dimensional observations
(e.g., image observations). We empirically evaluate APT by exposing
task-specific reward after a long unsupervised pre-training phase. On Atari
games, APT achieves human-level performance on 12 games and obtains highly
competitive performance compared to canonical fully supervised RL algorithms.
On DMControl suite, APT beats all baselines in terms of asymptotic performance
and data efficiency and dramatically improves performance on tasks that are
extremely difficult to train from scratch.
- Abstract(参考訳): APT(Active Pre-Training)と呼ばれる強化学習のための新しい教師なしプリトレーニング方法を紹介します。
APTは報酬のない環境で新しい状態を積極的に探すことで行動や表現を学習する。
重要な新しいアイデアは、抽象表現空間で計算された非パラメトリックエントロピーを最大化することで環境を探索することであり、これは難しい密度モデリングを回避し、その結果、高次元の観察(例えば画像観察)を持つ環境において、我々のアプローチをはるかに良く拡張することを可能にする。
我々は、長期の教師なし事前訓練フェーズの後、タスク固有の報酬を露出させることで、aptを評価する。
アタリゲームでは、APTは12ゲームで人間レベルのパフォーマンスを達成し、標準完全教師付きRLアルゴリズムと比較して高い競争性能を得る。
DMControlスイートでは、APTは漸近的なパフォーマンスとデータ効率ですべてのベースラインを上回り、スクラッチからトレーニングするのが非常に難しいタスクのパフォーマンスを劇的に改善します。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。