論文の概要: ODPP: A Unified Algorithm Framework for Unsupervised Option Discovery
based on Determinantal Point Process
- arxiv url: http://arxiv.org/abs/2212.00211v1
- Date: Thu, 1 Dec 2022 01:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:50:17.887124
- Title: ODPP: A Unified Algorithm Framework for Unsupervised Option Discovery
based on Determinantal Point Process
- Title(参考訳): ODPP:決定点プロセスに基づく教師なしオプション発見のための統一アルゴリズムフレームワーク
- Authors: Jiayu Chen, Vaneet Aggarwal, Tian Lan
- Abstract要約: 本稿では,DPP(Determinantal Point Process)の新たな利用を通じて,多様性とカバレッジを定量化する統一フレームワークを提案する。
具体的には、状態遷移グラフのラプラシアンスペクトルを持つDPPカーネル行列を定義し、軌道における期待モード番号を目的とする。
提案アルゴリズムは、多様性とカバレッジ駆動のカテゴリの両方でSOTAベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 44.77500987121531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rich skills through temporal abstractions without supervision of
external rewards is at the frontier of Reinforcement Learning research.
Existing works mainly fall into two distinctive categories: variational and
Laplacian-based option discovery. The former maximizes the diversity of the
discovered options through a mutual information loss but overlooks coverage of
the state space, while the latter focuses on improving the coverage of options
by increasing connectivity during exploration, but does not consider diversity.
In this paper, we propose a unified framework that quantifies diversity and
coverage through a novel use of the Determinantal Point Process (DPP) and
enables unsupervised option discovery explicitly optimizing both objectives.
Specifically, we define the DPP kernel matrix with the Laplacian spectrum of
the state transition graph and use the expected mode number in the trajectories
as the objective to capture and enhance both diversity and coverage of the
learned options. The proposed option discovery algorithm is extensively
evaluated using challenging tasks built with Mujoco and Atari, demonstrating
that our proposed algorithm substantially outperforms SOTA baselines from both
diversity- and coverage-driven categories. The codes are available at
https://github.com/LucasCJYSDL/ODPP.
- Abstract(参考訳): 外部報酬の監督なしに時間的抽象化を通じて豊かなスキルを学ぶことは、強化学習研究の最前線にある。
既存の作品は主に変分とラプラシアンに基づくオプション発見という2つの異なるカテゴリーに分類される。
前者は相互情報損失によって発見された選択肢の多様性を最大化するが、州空間の範囲を見落とし、後者は探検中に接続性を高めてオプションの範囲を改善することに注力するが、多様性は考慮しない。
本稿では,dpp(decisionantal point process)を新規に利用し,両目的を明示的に最適化した非教師なしオプション発見を可能にする統一フレームワークを提案する。
具体的には、状態遷移グラフのラプラシアンスペクトルを持つdppカーネル行列を定義し、軌道上の期待モード番号を、学習されたオプションの多様性と範囲をキャプチャし、拡張する目的とする。
提案するオプション探索アルゴリズムは,MujocoとAtariで構築した課題を用いて広範に評価され,提案アルゴリズムは多様性とカバレッジ駆動のカテゴリからSOTAベースラインを大幅に上回ることを示した。
コードはhttps://github.com/lucascjysdl/odppで入手できる。
関連論文リスト
- Phasic Diversity Optimization for Population-Based Reinforcement Learning [10.15130620537703]
Phasic Diversity Optimization (PDO)アルゴリズムは報酬と多様性のトレーニングを異なるフェーズに分けている。
補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。
本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。
論文 参考訳(メタデータ) (2024-03-17T06:41:09Z) - Objectives Are All You Need: Solving Deceptive Problems Without Explicit
Diversity Maintenance [7.3153233408665495]
我々は,明らかに多様性の維持を行なわずに,偽りのドメインを解決することを約束するアプローチを提案する。
人口多様性を暗黙的に維持することが示されているため,これらの目的を最適化するためにレキシケースの選択を用いる。
目的を多くの目的に分解し、それらを最適化することで、探究する偽りの領域においてMAP-Elitesより優れていることが分かりました。
論文 参考訳(メタデータ) (2023-11-04T00:09:48Z) - Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文 参考訳(メタデータ) (2023-10-23T02:41:34Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality [26.69352834457256]
我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:40:52Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。