論文の概要: Diverse Policies Converge in Reward-free Markov Decision Processe
- arxiv url: http://arxiv.org/abs/2308.11924v1
- Date: Wed, 23 Aug 2023 05:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:37:13.735123
- Title: Diverse Policies Converge in Reward-free Markov Decision Processe
- Title(参考訳): 報酬のないマルコフ決定プロセスで多様な政策が収束
- Authors: Fanqi Lin, Shiyu Huang, Weiwei Tu
- Abstract要約: 我々は、多様性強化学習の枠組みを統一し、多様な政策の訓練の収束について検討する。
また,このような枠組みの下で,効率の良い多様性強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.42193141047252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved great success in many decision-making
tasks, and traditional reinforcement learning algorithms are mainly designed
for obtaining a single optimal solution. However, recent works show the
importance of developing diverse policies, which makes it an emerging research
topic. Despite the variety of diversity reinforcement learning algorithms that
have emerged, none of them theoretically answer the question of how the
algorithm converges and how efficient the algorithm is. In this paper, we
provide a unified diversity reinforcement learning framework and investigate
the convergence of training diverse policies. Under such a framework, we also
propose a provably efficient diversity reinforcement learning algorithm.
Finally, we verify the effectiveness of our method through numerical
experiments.
- Abstract(参考訳): 強化学習は多くの意思決定タスクで大きな成功を収めており、従来の強化学習アルゴリズムは主に一つの最適解を得るために設計されている。
しかし、近年の研究では多様な政策が重要視されており、新たな研究課題となっている。
多様な強化学習アルゴリズムが出現したにもかかわらず、アルゴリズムの収束方法やアルゴリズムの効率性に関する理論的疑問には答えられていない。
本稿では,統一的多様性強化学習フレームワークを提供し,多様な政策の訓練の収束について検討する。
このような枠組みの下では,効率的な多様性強化学習アルゴリズムを提案する。
最後に,本手法の有効性を数値実験により検証する。
関連論文リスト
- Evaluating Ensemble Methods for News Recommender Systems [50.90330146667386]
本稿では,Microsoft News データセット (MIND) において,様々な最先端アルゴリズムを組み合わさって優れた結果を得るために,アンサンブル手法をどのように利用できるかを示す。
その結果,NRSアルゴリズムの組み合わせは,基礎学習者が十分に多様であることから,個々のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-23T13:40:50Z) - Deep Reinforcement Learning for Dynamic Algorithm Selection: A
Proof-of-Principle Study on Differential Evolution [27.607740475924448]
本稿では,この課題を実現するための強化学習に基づく動的アルゴリズム選択フレームワークを提案する。
我々は、最適な動作を推測し、アルゴリズムの選択を確実にするために、洗練されたディープニューラルネットワークモデルを用いる。
基礎研究として、この枠組みを微分進化アルゴリズム群に適用する。
論文 参考訳(メタデータ) (2024-03-04T15:40:28Z) - Exploring Novel Quality Diversity Methods For Generalization in
Reinforcement Learning [0.0]
強化学習分野は成果に強く、再適用に弱い。
本稿では,ネットワークの学習方法が一般化を改善するかどうかを問う。
論文 参考訳(メタデータ) (2023-03-26T00:23:29Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Algorithm Selection on a Meta Level [58.720142291102135]
本稿では,与えられたアルゴリズムセレクタの組み合わせに最適な方法を求めるメタアルゴリズム選択の問題を紹介する。
本稿では,メタアルゴリズム選択のための一般的な方法論フレームワークと,このフレームワークのインスタンス化として具体的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-20T11:23:21Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - SEERL: Sample Efficient Ensemble Reinforcement Learning [20.983016439055188]
モデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。
適切な多彩なポリシーの集合を学習し、選択することが、適切なアンサンブルのために必要であることを示す。
Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。
論文 参考訳(メタデータ) (2020-01-15T10:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。