論文の概要: APS: Active Pretraining with Successor Features
- arxiv url: http://arxiv.org/abs/2108.13956v1
- Date: Tue, 31 Aug 2021 16:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:26:15.553892
- Title: APS: Active Pretraining with Successor Features
- Title(参考訳): APS: 継承機能付きアクティブプレトレーニング
- Authors: Hao Liu, Pieter Abbeel
- Abstract要約: 非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
- 参考スコア(独自算出の注目度): 96.24533716878055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new unsupervised pretraining objective for reinforcement
learning. During the unsupervised reward-free pretraining phase, the agent
maximizes mutual information between tasks and states induced by the policy.
Our key contribution is a novel lower bound of this intractable quantity. We
show that by reinterpreting and combining variational successor
features~\citep{Hansen2020Fast} with nonparametric entropy
maximization~\citep{liu2021behavior}, the intractable mutual information can be
efficiently optimized. The proposed method Active Pretraining with Successor
Feature (APS) explores the environment via nonparametric entropy maximization,
and the explored data can be efficiently leveraged to learn behavior by
variational successor features. APS addresses the limitations of existing
mutual information maximization based and entropy maximization based
unsupervised RL, and combines the best of both worlds. When evaluated on the
Atari 100k data-efficiency benchmark, our approach significantly outperforms
previous methods combining unsupervised pretraining with task-specific
finetuning.
- Abstract(参考訳): 強化学習のための新しい教師なし事前学習目標を提案する。
教師なし報酬なし事前訓練フェーズにおいて、エージェントはポリシーによって誘導されるタスクと状態間の相互情報を最大化する。
私たちの重要な貢献は、この難解な量の新たな下限です。
変分後継特徴を再解釈し結合することにより、非パラメトリックエントロピー最大化〜\citep{liu2021behavior} を効率的に最適化できることを示す。
提案手法は,非パラメトリックエントロピー最大化により環境を探索し,探索したデータを効率よく活用し,変分後継特徴による行動学習を行う。
APSは、既存の相互情報最大化とエントロピー最大化に基づく教師なしRLの制限に対処し、両方の世界のベストを組み合わせている。
atari 100kデータ効率ベンチマークで評価すると、教師なし事前学習とタスク固有の微調整を組み合わせた従来の手法を大きく上回っている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Multi-Augmentation for Efficient Visual Representation Learning for
Self-supervised Pre-training [1.3733988835863333]
本稿では、パイプライン全体を構築するための様々な拡張ポリシーを網羅的に検索する、自己改善学習のためのマルチ強化(MA-SSRL)を提案する。
MA-SSRLは不変の特徴表現をうまく学習し、自己教師付き事前学習のための効率的で効果的で適応可能なデータ拡張パイプラインを提供する。
論文 参考訳(メタデータ) (2022-05-24T04:18:39Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery [88.97076030698433]
本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-01T00:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。