論文の概要: Hybrid of representation learning and reinforcement learning for dynamic
and complex robotic motion planning
- arxiv url: http://arxiv.org/abs/2309.03758v1
- Date: Thu, 7 Sep 2023 15:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:39:07.010737
- Title: Hybrid of representation learning and reinforcement learning for dynamic
and complex robotic motion planning
- Title(参考訳): 動的・複雑なロボット動作計画のための表現学習と強化学習のハイブリッド
- Authors: Chengmin Zhou, Xin Lu, Jiapeng Dai, Bingding Huang, Xiaoxu Liu, and
Pasi Fr\"anti
- Abstract要約: 本稿では,ロボット動作計画のためのハイブリッドアルゴリズムを提案する。長期記憶(LSTM)プーリングとスキップ接続により,注意に基づく離散ソフトアクタ評論家(LSA-DSAC)を実現する。
実験の結果, LSA-DSACはトレーニングおよびほとんどの評価において, 最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 3.794762046318001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motion planning is the soul of robot decision making. Classical planning
algorithms like graph search and reaction-based algorithms face challenges in
cases of dense and dynamic obstacles. Deep learning algorithms generate
suboptimal one-step predictions that cause many collisions. Reinforcement
learning algorithms generate optimal or near-optimal time-sequential
predictions. However, they suffer from slow convergence, suboptimal converged
results, and overfittings. This paper introduces a hybrid algorithm for robotic
motion planning: long short-term memory (LSTM) pooling and skip connection for
attention-based discrete soft actor critic (LSA-DSAC). First, graph network
(relational graph) and attention network (attention weight) interpret the
environmental state for the learning of the discrete soft actor critic
algorithm. The expressive power of attention network outperforms that of graph
in our task by difference analysis of these two representation methods.
However, attention based DSAC faces the overfitting problem in training.
Second, the skip connection method is integrated to attention based DSAC to
mitigate overfitting and improve convergence speed. Third, LSTM pooling is
taken to replace the sum operator of attention weigh and eliminate overfitting
by slightly sacrificing convergence speed at early-stage training. Experiments
show that LSA-DSAC outperforms the state-of-the-art in training and most
evaluations. The physical robot is also implemented and tested in the real
world.
- Abstract(参考訳): モーションプランニングはロボットの意思決定の魂である。
グラフ探索や反応に基づくアルゴリズムのような古典的な計画アルゴリズムは、密度と動的障害の場合に課題に直面している。
ディープラーニングアルゴリズムは、多くの衝突を引き起こす最適化された1段階の予測を生成する。
強化学習アルゴリズムは最適またはほぼ最適の時間系列予測を生成する。
しかし、それらは緩やかな収束、最適以下の収束結果、過度な適合に悩まされる。
本稿では,ロボット動作計画のためのハイブリッドアルゴリズムを提案する。長期記憶(LSTM)プーリングと,注意に基づく離散ソフトアクタ批判(LSA-DSAC)のためのスキップ接続である。
まず、グラフネットワーク(関係グラフ)とアテンションネットワーク(アテンション重み)が、離散的ソフトアクタ批判アルゴリズムの学習のための環境状態を解釈する。
注目ネットワークの表現力は、これらの2つの表現方法の差分解析により、タスクにおけるグラフの表現能力より優れる。
しかし、注意に基づくDSACは、トレーニングにおいて過度に適合する問題に直面している。
第2に、過剰適合を緩和し、収束速度を向上させるために、注目に基づくDSACにスキップ接続方式を統合する。
第3に、LSTMプーリングは注意重みの和演算子を置き換え、初期訓練時の収束速度をわずかに犠牲にすることで過度な適合をなくす。
実験の結果, LSA-DSACはトレーニングおよびほとんどの評価において, 最先端技術よりも優れていた。
物理ロボットは実世界でも実装され、テストされる。
関連論文リスト
- Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - MASS: Mobility-Aware Sensor Scheduling of Cooperative Perception for
Connected Automated Driving [19.66714697653504]
コラボレーティブ・パーセプション(CP)と呼ばれる新しいパラダイムが、コラボレーティブ・ビークル(CoV)からのセンサデータを共有することで救助にやってくる。
既存の方法は、近くの車両からの知覚の利得を予測するために、可視性マップのようなメタ情報交換に依存している。
CPの分散スケジューリングにおいて,スケジューリング中に学習する新しい手法を提案する。
提案したMASSアルゴリズムは,他の学習ベースアルゴリズムと比較して,最大4.2ポイントのリコール率向上を実現している。
論文 参考訳(メタデータ) (2023-02-25T09:03:05Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - An advantage actor-critic algorithm for robotic motion planning in dense
and dynamic scenarios [0.8594140167290099]
本稿では,既存のアクター批判アルゴリズムを改良し,複雑な動作計画に適合する。
ロボットが目標を達成するまでの処理時間を短縮し、動き計画においてより高い成功率を達成する。
論文 参考訳(メタデータ) (2021-02-05T12:30:23Z) - A review of motion planning algorithms for intelligent robotics [0.8594140167290099]
本研究では,典型的な動き計画アルゴリズムの原理を調査し,分析する。
従来の計画アルゴリズムには、グラフ検索アルゴリズム、サンプリングベースアルゴリズム、補間曲線アルゴリズムなどがある。
教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。
ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。
論文 参考訳(メタデータ) (2021-02-04T02:24:04Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Robust Deep Learning as Optimal Control: Insights and Convergence
Guarantees [19.28405674700399]
訓練中の敵の例は、敵の攻撃に対する一般的な防御メカニズムです。
min-max問題を最適制御問題として解釈することにより、ニューラルネットワークの構成構造を活用できることが示されている。
本稿では、ロバストな最適制御の手法と、最適化における不正確な手法を組み合わせて、この逆学習アルゴリズムの最初の収束解析を行う。
論文 参考訳(メタデータ) (2020-05-01T21:26:38Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。