論文の概要: Unsupervised Behaviour Discovery with Quality-Diversity Optimisation
- arxiv url: http://arxiv.org/abs/2106.05648v1
- Date: Thu, 10 Jun 2021 10:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:29:38.435696
- Title: Unsupervised Behaviour Discovery with Quality-Diversity Optimisation
- Title(参考訳): 品質多様性最適化による教師なし行動発見
- Authors: Luca Grillotti and Antoine Cully
- Abstract要約: 品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。
ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。
本稿では,自律型ロボットの能力を実現するアルゴリズムについて紹介する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality-Diversity algorithms refer to a class of evolutionary algorithms
designed to find a collection of diverse and high-performing solutions to a
given problem. In robotics, such algorithms can be used for generating a
collection of controllers covering most of the possible behaviours of a robot.
To do so, these algorithms associate a behavioural descriptor to each of these
behaviours. Each behavioural descriptor is used for estimating the novelty of
one behaviour compared to the others. In most existing algorithms, the
behavioural descriptor needs to be hand-coded, thus requiring prior knowledge
about the task to solve. In this paper, we introduce: Autonomous Robots
Realising their Abilities, an algorithm that uses a dimensionality reduction
technique to automatically learn behavioural descriptors based on raw sensory
data. The performance of this algorithm is assessed on three robotic tasks in
simulation. The experimental results show that it performs similarly to
traditional hand-coded approaches without the requirement to provide any
hand-coded behavioural descriptor. In the collection of diverse and
high-performing solutions, it also manages to find behaviours that are novel
with respect to more features than its hand-coded baselines. Finally, we
introduce a variant of the algorithm which is robust to the dimensionality of
the behavioural descriptor space.
- Abstract(参考訳): 品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。
ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。
そのため、これらのアルゴリズムはそれぞれの振る舞いに振る舞い記述子を関連付ける。
各行動記述子は、他の行動と比較して1つの行動の新規性を推定するために使用される。
ほとんどの既存のアルゴリズムでは、振る舞い記述子をハンドコーディングする必要があるため、タスクに関する事前の知識が必要となる。
本稿では,その能力を実現する自律ロボットについて紹介する。そのアルゴリズムは次元低減技術を用いて,生の感覚データに基づいて行動記述子を自動的に学習する。
このアルゴリズムの性能はシミュレーションにおける3つのロボットタスクに基づいて評価される。
実験の結果,ハンドコードされた動作記述子を提供する必要なしに,従来のハンドコードアプローチと同じように動作することがわかった。
多様なハイパフォーマンスなソリューションのコレクションでは、ハンドコードされたベースラインよりも多くの機能に関して斬新な振る舞いを見つけることができる。
最後に,動作記述子空間の次元性に頑健なアルゴリズムの変種を導入する。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - A distributed, plug-n-play algorithm for multi-robot applications with a
priori non-computable objective functions [2.2452191187045383]
マルチロボットアプリケーションでは、ミッションのユーザ定義の目的を一般的な最適化問題として当てはめることができる。
これらの問題には標準勾配の差分型アルゴリズムは適用できない。
本稿では,各ロボットのサブコスト関数を慎重に設計するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-14T20:40:00Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Model-Based Quality-Diversity Search for Efficient Robot Learning [28.049034339935933]
新規性に基づく品質多様性(QD)アルゴリズム。
ネットワークはレパートリーと並行して訓練され、新規検索プロセスにおける非プロミッシングアクションの実行を避けるために使用される。
実験により,このような前方モデルによるQDアルゴリズムの強化により,進化過程のサンプル効率と性能,スキル適応性が向上することが示された。
論文 参考訳(メタデータ) (2020-08-11T09:02:18Z) - Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。
この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文 参考訳(メタデータ) (2020-06-25T08:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。