論文の概要: A review of motion planning algorithms for intelligent robotics
- arxiv url: http://arxiv.org/abs/2102.02376v2
- Date: Fri, 5 Feb 2021 12:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 13:05:43.101102
- Title: A review of motion planning algorithms for intelligent robotics
- Title(参考訳): 知的ロボティクスのための運動計画アルゴリズムのレビュー
- Authors: Chengmin Zhou, Bingding Huang, Pasi Fr\"anti
- Abstract要約: 本研究では,典型的な動き計画アルゴリズムの原理を調査し,分析する。
従来の計画アルゴリズムには、グラフ検索アルゴリズム、サンプリングベースアルゴリズム、補間曲線アルゴリズムなどがある。
教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。
ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。
- 参考スコア(独自算出の注目度): 0.8594140167290099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate and analyze principles of typical motion planning algorithms.
These include traditional planning algorithms, supervised learning, optimal
value reinforcement learning, policy gradient reinforcement learning.
Traditional planning algorithms we investigated include graph search
algorithms, sampling-based algorithms, and interpolating curve algorithms.
Supervised learning algorithms include MSVM, LSTM, MCTS and CNN. Optimal value
reinforcement learning algorithms include Q learning, DQN, double DQN, dueling
DQN. Policy gradient algorithms include policy gradient method, actor-critic
algorithm, A3C, A2C, DPG, DDPG, TRPO and PPO. New general criteria are also
introduced to evaluate performance and application of motion planning
algorithms by analytical comparisons. Convergence speed and stability of
optimal value and policy gradient algorithms are specially analyzed. Future
directions are presented analytically according to principles and analytical
comparisons of motion planning algorithms. This paper provides researchers with
a clear and comprehensive understanding about advantages, disadvantages,
relationships, and future of motion planning algorithms in robotics, and paves
ways for better motion planning algorithms.
- Abstract(参考訳): 典型的な運動計画アルゴリズムの原理を調査・分析します。
これには、従来の計画アルゴリズム、教師付き学習、最適値強化学習、ポリシー勾配強化学習が含まれる。
従来の計画アルゴリズムには,グラフ探索アルゴリズム,サンプリングベースアルゴリズム,補間曲線アルゴリズムなどがある。
教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。
最適値強化学習アルゴリズムには、Q学習、DQN、double DQN、DQNのデュエルがある。
ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。
解析比較による運動計画アルゴリズムの性能評価と適用を評価するための新たな一般基準も導入されている。
最適値とポリシー勾配アルゴリズムの収束速度と安定性を特別に分析する。
動作計画アルゴリズムの原理と解析比較に基づき,今後の方向性を解析的に提示する。
本稿では,ロボット工学におけるモーションプランニングアルゴリズムの長所,短所,関係,未来について,研究者に明確かつ包括的な理解を与え,より優れたモーションプランニングアルゴリズムを実現する方法を提案する。
関連論文リスト
- Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning
Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。
妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。
このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-17T06:22:11Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Goal Agnostic Planning using Maximum Likelihood Paths in Hypergraph
World Models [1.370633147306388]
本稿では,ハイパーグラフに基づく機械学習アルゴリズム,データ構造駆動型メンテナンス手法,およびDijkstraのアルゴリズムの確率的応用に基づく計画アルゴリズムを提案する。
このアルゴリズムが問題空間内の最適解を決定すること、数学的に有界な学習性能を証明し、時間を通してシステム状態の進行を解析する数学的モデルを提供する。
論文 参考訳(メタデータ) (2021-10-18T16:22:33Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。