論文の概要: Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms
- arxiv url: http://arxiv.org/abs/2104.04768v1
- Date: Sat, 10 Apr 2021 13:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:28:24.361858
- Title: Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms
- Title(参考訳): Selection-Expansion:Motion-Planning and Diversity Search Algorithmの統一フレームワーク
- Authors: Alexandre Chenu, Nicolas Perrin-Gilbert, St\'ephane Doncieux, Olivier
Sigaud
- Abstract要約: 本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
- 参考スコア(独自算出の注目度): 69.87173070473717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents need a reward signal to learn successful
policies. When this signal is sparse or the corresponding gradient is
deceptive, such agents need a dedicated mechanism to efficiently explore their
search space without relying on the reward. Looking for a large diversity of
behaviors or using Motion Planning (MP) algorithms are two options in this
context. In this paper, we build on the common roots between these two options
to investigate the properties of two diversity search algorithms, the Novelty
Search and the Goal Exploration Process algorithms. These algorithms look for
diversity in an outcome space or behavioral space which is generally
hand-designed to represent what matters for a given task. The relation to MP
algorithms reveals that the smoothness, or lack of smoothness of the mapping
between the policy parameter space and the outcome space plays a key role in
the search efficiency. In particular, we show empirically that, if the mapping
is smooth enough, i.e. if two close policies in the parameter space lead to
similar outcomes, then diversity algorithms tend to inherit exploration
properties of MP algorithms. By contrast, if it is not, diversity algorithms
lose these properties and their performance strongly depends on specific
heuristics, notably filtering mechanisms that discard some of the explored
policies.
- Abstract(参考訳): 強化学習エージェントは、成功政策を学ぶために報酬信号を必要とする。
この信号が粗い場合や、それに対応する勾配が欺かれる場合、報酬に頼らずに探索空間を効率的に探索する専用のメカニズムが必要である。
行動の多様さやMP(Motion Planning)アルゴリズムの使用は、この文脈における2つの選択肢である。
本稿では,これら2つの選択肢間の共通ルーツに基づいて,2つの多様性探索アルゴリズム(ノベルティ探索法と目標探索法)の特性について検討する。
これらのアルゴリズムは、一般的に与えられたタスクにとって重要なものを表現するために手作業で設計された結果空間や行動空間の多様性を探索する。
MPアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさや滑らかさの欠如が、探索効率において重要な役割を果たすことを示している。
特に、マッピングが十分滑らかであれば、すなわち、実証的に示す。
パラメータ空間における2つの密接なポリシーが同様の結果をもたらす場合、多様性アルゴリズムはMPアルゴリズムの探索特性を継承する傾向がある。
対照的に、もしそうでなければ、多様性アルゴリズムはこれらの特性を失い、それらの性能は特定のヒューリスティック、特に検討されたポリシーを廃止するフィルタリング機構に大きく依存する。
関連論文リスト
- A Multi-Heuristic Search-based Motion Planning for Automated Parking [0.0]
駐車場や建設現場のような非構造環境においては、リアルタイムな計画の実現が困難である。
我々は、複数の関数とその個々の利点を利用できるマルチヒューリスティック検索アプローチを採用しています。
Multi-Heuristic A*アルゴリズムは、非常に人気のある検索ベースのアルゴリズムであるHybrid A*に対してベンチマークされる。
論文 参考訳(メタデータ) (2023-07-15T17:33:06Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - A binary variant of gravitational search algorithm and its application
to windfarm layout optimization problem [0.7734726150561088]
本稿では, 2次探索空間 (BNAGGSA) のための GSA 内に, 重力定数を埋め込んだ新しい近傍アーカイブ (A novel neighborhood Archives embedded gravity constants) を提案する。
提案アルゴリズムは、エージェントが最適なステップサイズで最適な方向に移動する自己適応的なステップサイズ機構を生成する。
実世界の応用における提案アルゴリズムの適用性を確認するために,風向配置最適化の問題を検討する。
論文 参考訳(メタデータ) (2021-07-25T16:56:19Z) - Expressivity of Parameterized and Data-driven Representations in Quality
Diversity Search [111.06379262544911]
2つの異なる検索空間で実施した品質多様性進化探索の出力多様性を比較する。
学習モデルは、未知の例への外挿や拡大よりも、既知のデータポイント間の補間が優れている。
論文 参考訳(メタデータ) (2021-05-10T10:27:43Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Multi-Resolution A* [19.562565022582785]
ヒューリスティック検索に基づく計画手法は、離散化された空間上での運動計画に一般的に用いられる。
本稿では,複数の重み付きA*(WA*)探索を同時に行うマルチリゾリューションA*アルゴリズムを提案する。
MRA* はアンカー分解能探索空間と分解能完備性に関して有界な準最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T17:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。