論文の概要: A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process
- arxiv url: http://arxiv.org/abs/2212.00211v3
- Date: Tue, 26 Sep 2023 14:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 18:28:00.100460
- Title: A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process
- Title(参考訳): 決定的点過程に基づくスキルの教師なし発見のための統一アルゴリズムフレームワーク
- Authors: Jiayu Chen, Vaneet Aggarwal, Tian Lan
- Abstract要約: 教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
- 参考スコア(独自算出の注目度): 53.86223883060367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rich skills under the option framework without supervision of
external rewards is at the frontier of reinforcement learning research.
Existing works mainly fall into two distinctive categories: variational option
discovery that maximizes the diversity of the options through a mutual
information loss (while ignoring coverage) and Laplacian-based methods that
focus on improving the coverage of options by increasing connectivity of the
state space (while ignoring diversity). In this paper, we show that diversity
and coverage in unsupervised option discovery can indeed be unified under the
same mathematical framework. To be specific, we explicitly quantify the
diversity and coverage of the learned options through a novel use of
Determinantal Point Process (DPP) and optimize these objectives to discover
options with both superior diversity and coverage. Our proposed algorithm,
ODPP, has undergone extensive evaluation on challenging tasks created with
Mujoco and Atari. The results demonstrate that our algorithm outperforms
state-of-the-art baselines in both diversity- and coverage-driven categories.
- Abstract(参考訳): 外部報酬の監督なしでオプションフレームワークの下でリッチスキルを学ぶことは、強化学習研究のフロンティアにある。
既存の作品は主に、相互情報損失(カバレッジを無視しながら)を通じてオプションの多様性を最大化する変分的オプション発見と、(多様性を無視しながら)州空間の接続性を高めてオプションのカバレッジを改善することに焦点を当てたラプラシア的手法である。
本稿では,教師なしオプション発見における多様性と範囲が,同じ数学的枠組みの下で確実に統一できることを示す。
具体的には、DPP(Determinantal Point Process)の新たな利用により、学習した選択肢の多様性とカバレッジを明確に定量化し、これらの目的を最適化し、優れた多様性とカバレッジを持つ選択肢を見つける。
提案手法であるodppは,mujoco と atari による課題に対する広範囲な評価を行っている。
その結果,本アルゴリズムは多様性と包括性の両方のカテゴリーにおいて,最先端のベースラインよりも優れていた。
関連論文リスト
- Phasic Diversity Optimization for Population-Based Reinforcement Learning [10.15130620537703]
Phasic Diversity Optimization (PDO)アルゴリズムは報酬と多様性のトレーニングを異なるフェーズに分けている。
補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。
本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。
論文 参考訳(メタデータ) (2024-03-17T06:41:09Z) - Objectives Are All You Need: Solving Deceptive Problems Without Explicit
Diversity Maintenance [7.3153233408665495]
我々は,明らかに多様性の維持を行なわずに,偽りのドメインを解決することを約束するアプローチを提案する。
人口多様性を暗黙的に維持することが示されているため,これらの目的を最適化するためにレキシケースの選択を用いる。
目的を多くの目的に分解し、それらを最適化することで、探究する偽りの領域においてMAP-Elitesより優れていることが分かりました。
論文 参考訳(メタデータ) (2023-11-04T00:09:48Z) - Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文 参考訳(メタデータ) (2023-10-23T02:41:34Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality [26.69352834457256]
我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:40:52Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。