論文の概要: CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- arxiv url: http://arxiv.org/abs/2202.00161v1
- Date: Tue, 1 Feb 2022 00:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 01:23:30.015612
- Title: CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- Title(参考訳): CIC:教師なしスキル発見のための対照的な内在的制御
- Authors: Michael Laskin, Hao Liu, Xue Bin Peng, Denis Yarats, Aravind
Rajeswaran, Pieter Abbeel
- Abstract要約: 本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 88.97076030698433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Contrastive Intrinsic Control (CIC), an algorithm for
unsupervised skill discovery that maximizes the mutual information between
skills and state transitions. In contrast to most prior approaches, CIC uses a
decomposition of the mutual information that explicitly incentivizes diverse
behaviors by maximizing state entropy. We derive a novel lower bound estimate
for the mutual information which combines a particle estimator for state
entropy to generate diverse behaviors and contrastive learning to distill these
behaviors into distinct skills. We evaluate our algorithm on the Unsupervised
Reinforcement Learning Benchmark, which consists of a long reward-free
pre-training phase followed by a short adaptation phase to downstream tasks
with extrinsic rewards. We find that CIC substantially improves over prior
unsupervised skill discovery methods and outperforms the next leading overall
exploration algorithm in terms of downstream task performance.
- Abstract(参考訳): 本研究では,スキルと状態遷移の相互情報を最大化する教師なしスキル発見のためのアルゴリズムであるコントラスト内在制御(cic)を提案する。
従来のほとんどのアプローチとは対照的に、CICは状態エントロピーを最大化することで多様な振る舞いを明示的に動機付ける相互情報の分解を使用する。
状態エントロピーのための粒子推定器を組み合わせ、多様な振る舞いを生成し、対照的な学習を行い、これらの振る舞いを異なるスキルに蒸留する新しい低境界推定法を導出する。
本研究では,非教師付き強化学習ベンチマーク(Unsupervised Reinforcement Learning Benchmark)に基づくアルゴリズムの評価を行った。
我々は、CICが教師なしスキル発見手法よりも大幅に改善し、下流タスク性能の観点から、次の先導的な総合探索アルゴリズムよりも優れていることを発見した。
関連論文リスト
- On the Convergence of Continual Learning with Adaptive Methods [4.351356718501137]
適応型非連続学習法(NCCL)を提案する。
提案手法は,複数の画像分類タスクに対する継続学習既存手法の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2024-04-08T14:28:27Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。