論文の概要: Quality Diversity for Robot Learning: Limitations and Future Directions
- arxiv url: http://arxiv.org/abs/2407.17515v1
- Date: Tue, 9 Jul 2024 23:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 17:59:54.664093
- Title: Quality Diversity for Robot Learning: Limitations and Future Directions
- Title(参考訳): ロボット学習における品質多様性:限界と今後の方向性
- Authors: Sumeet Batra, Bryon Tjanaka, Stefanos Nikolaidis, Gaurav Sukhatme,
- Abstract要約: 品質多様性(QD: Quality Diversity)は、ロボットスキル学習のための高性能で多様なポリシーを発見することに成功している。
我々は、オープンな検索と一般化を容易にするために、新しいパラダイムを開発する必要があると論じている。
- 参考スコア(独自算出の注目度): 6.818634856205417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality Diversity (QD) has shown great success in discovering high-performing, diverse policies for robot skill learning. While current benchmarks have led to the development of powerful QD methods, we argue that new paradigms must be developed to facilitate open-ended search and generalizability. In particular, many methods focus on learning diverse agents that each move to a different xy position in MAP-Elites-style bounded archives. Here, we show that such tasks can be accomplished with a single, goal-conditioned policy paired with a classical planner, achieving O(1) space complexity w.r.t. the number of policies and generalization to task variants. We hypothesize that this approach is successful because it extracts task-invariant structural knowledge by modeling a relational graph between adjacent cells in the archive. We motivate this view with emerging evidence from computational neuroscience and explore connections between QD and models of cognitive maps in human and other animal brains. We conclude with a discussion exploring the relationships between QD and cognitive maps, and propose future research directions inspired by cognitive maps towards future generalizable algorithms capable of truly open-ended search.
- Abstract(参考訳): 品質多様性(QD: Quality Diversity)は、ロボットスキル学習のための高性能で多様なポリシーを発見することに成功している。
現在のベンチマークは、強力なQD手法の開発につながっているが、我々は、オープンな検索と一般化を容易にするために、新しいパラダイムを開発する必要があると論じている。
特に、MAP-Elitesスタイルの有界アーカイブにおいて、それぞれ異なるxy位置に移動する多様なエージェントの学習に焦点が当てられている。
ここでは、そのようなタスクは古典的なプランナーと組み合わせた単一目標条件のポリシーで達成でき、O(1)空間の複雑さを達成できる。
本手法は, 隣接セル間の関係グラフをモデル化することにより, タスク不変構造知識を抽出し, タスク不変構造知識を抽出する。
我々は、この見解を、計算神経科学の新たな証拠で動機付け、人間や他の動物の脳におけるQDと認知地図のモデルとの関係を探る。
そこで本研究では,QDマップと認知地図の関係を考察し,認識地図に触発された今後の研究方向を,真のオープンエンド検索が可能な一般化可能なアルゴリズムに向けて提案する。
関連論文リスト
- A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - CogNGen: Constructing the Kernel of a Hyperdimensional Predictive
Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。
我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文 参考訳(メタデータ) (2022-03-31T04:44:28Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。