論文の概要: Learning Time-optimized Path Tracking with or without Sensory Feedback
- arxiv url: http://arxiv.org/abs/2203.01968v1
- Date: Thu, 3 Mar 2022 19:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 15:49:13.415169
- Title: Learning Time-optimized Path Tracking with or without Sensory Feedback
- Title(参考訳): 感覚フィードバックの有無による時間最適化経路追跡の学習
- Authors: Jonas C. Kiemel, Torsten Kr\"oger
- Abstract要約: 本稿では,ロボットが関節空間で定義された基準経路を素早く追従できる学習型アプローチを提案する。
ロボットは、物理シミュレータで生成されたデータを用いて強化学習によって訓練されたニューラルネットワークによって制御される。
- 参考スコア(独自算出の注目度): 5.254093731341154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a learning-based approach that allows a robot to
quickly follow a reference path defined in joint space without exceeding limits
on the position, velocity, acceleration and jerk of each robot joint. Contrary
to offline methods for time-optimal path parameterization, the reference path
can be changed during motion execution. In addition, our approach can utilize
sensory feedback, for instance, to follow a reference path with a bipedal robot
without losing balance. With our method, the robot is controlled by a neural
network that is trained via reinforcement learning using data generated by a
physics simulator. From a mathematical perspective, the problem of tracking a
reference path in a time-optimized manner is formalized as a Markov decision
process. Each state includes a fixed number of waypoints specifying the next
part of the reference path. The action space is designed in such a way that all
resulting motions comply with the specified kinematic joint limits. The reward
function finally reflects the trade-off between the execution time, the
deviation from the desired reference path and optional additional objectives
like balancing. We evaluate our approach with and without additional objectives
and show that time-optimized path tracking can be successfully learned for both
industrial and humanoid robots. In addition, we demonstrate that networks
trained in simulation can be successfully transferred to a real Kuka robot.
- Abstract(参考訳): 本稿では,各ロボット関節の位置,速度,加速度,ジェルクの制限を超過することなく,ロボットがジョイント空間で定義された参照経路を素早く追従できる学習に基づくアプローチを提案する。
時間-最適経路パラメータ化のオフラインメソッドとは対照的に、動作中に参照パスを変更することができる。
さらに,二足歩行ロボットによる参照経路を,バランスを損なうことなく追従するために,感覚フィードバックを活用できる。
本手法では,物理シミュレータが生成したデータを用いて強化学習により学習するニューラルネットワークによってロボットを制御する。
数学的な観点から、時間最適化された方法で参照経路を追跡する問題はマルコフ決定プロセスとして形式化される。
各状態は、参照パスの次の部分を指定する固定数のウェイポイントを含む。
作用空間は、得られる全ての動きが指定された運動的関節限界を満たすように設計される。
報酬関数は最終的に、実行時間、望ましい参照パスからの逸脱、バランスのようなオプション的な追加目的の間のトレードオフを反映します。
また, 産業用と人型の両方のロボットに対して, 時間に最適化された経路追跡が効果的に学習できることを示す。
さらに,シミュレーションで訓練したネットワークを,実際のクカロボットに転送できることを実証した。
関連論文リスト
- Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Advanced Skills by Learning Locomotion and Local Navigation End-to-End [10.872193480485596]
本研究は, 深層強化学習によるエンドツーエンド政策の訓練により, 完全な問題を解決することを提案する。
実際の四足歩行ロボットにおけるポリシーの展開を実演する。
論文 参考訳(メタデータ) (2022-09-26T16:35:00Z) - Hierarchical Path-planning from Speech Instructions with Spatial Concept-based Topometric Semantic Mapping [7.332652485849632]
本研究の目的は,位相的意味マップと経路計画を用いた階層的空間表現の実現である。
本研究では,SIGVerseシミュレータ上でのToyota Human Support Robotを用いた家庭環境実験と,実ロボットAlbertを用いた実験室環境実験を行った。
経路距離を用いた音声指示を用いたナビゲーション実験は,経路コストを基準とした階層的経路計画法よりもSpCoTMHPの性能向上を実証した。
論文 参考訳(メタデータ) (2022-03-21T09:15:25Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - OctoPath: An OcTree Based Self-Supervised Learning Approach to Local
Trajectory Planning for Mobile Robots [0.0]
我々は,エンコーダ・デコーダ・ディープニューラルネットワークであるOctoPathを導入し,エゴ車両の最適軌道を予測するための自己教師型訓練を行った。
トレーニング中、OctoPathは、所定のトレーニングデータセット内の予測と手動で駆動するトラジェクトリ間のエラーを最小限にする。
我々は,室内と屋外の異なる運転シナリオにおけるOctoPathの予測を,ベースラインハイブリッドA-Starアルゴリズムに対してベンチマークしながら評価した。
論文 参考訳(メタデータ) (2021-06-02T07:10:54Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Learning Collision-free and Torque-limited Robot Trajectories based on
Alternative Safe Behaviors [2.28438857884398]
ニューラルネットワークは、産業用ロボットの将来の動きを予測するために定期的に呼び出される。
アクションスペースの設計により、キネマティックジョイント限界の遵守が確保されます。
実ロボットによる実験は、安全な軌道をリアルタイムで生成できることを示しています。
論文 参考訳(メタデータ) (2021-03-05T16:50:57Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。