論文の概要: Physics-informed Temporal Difference Metric Learning for Robot Motion Planning
- arxiv url: http://arxiv.org/abs/2505.05691v1
- Date: Fri, 09 May 2025 00:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.107001
- Title: Physics-informed Temporal Difference Metric Learning for Robot Motion Planning
- Title(参考訳): 物理インフォームド型時間差メトリック学習によるロボット運動計画
- Authors: Ruiqi Ni, Zherong Pan, Ahmed H Qureshi,
- Abstract要約: 専門家による実演を必要とせず,行動計画問題に対処するために自己指導型学習法が登場した。
本稿では,アイコン方程式をより正確に解くための,自己教師付き時間差計量学習手法を提案する。
本手法は, 時間差学習を用いて局所最小値の急激な極小化を回避し, 有限領域上でのベルマンの最適性の原理を強制する。
- 参考スコア(独自算出の注目度): 17.503562318576417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The motion planning problem involves finding a collision-free path from a robot's starting to its target configuration. Recently, self-supervised learning methods have emerged to tackle motion planning problems without requiring expensive expert demonstrations. They solve the Eikonal equation for training neural networks and lead to efficient solutions. However, these methods struggle in complex environments because they fail to maintain key properties of the Eikonal equation, such as optimal value functions and geodesic distances. To overcome these limitations, we propose a novel self-supervised temporal difference metric learning approach that solves the Eikonal equation more accurately and enhances performance in solving complex and unseen planning tasks. Our method enforces Bellman's principle of optimality over finite regions, using temporal difference learning to avoid spurious local minima while incorporating metric learning to preserve the Eikonal equation's essential geodesic properties. We demonstrate that our approach significantly outperforms existing self-supervised learning methods in handling complex environments and generalizing to unseen environments, with robot configurations ranging from 2 to 12 degrees of freedom (DOF).
- Abstract(参考訳): 動作計画問題は、ロボットの開始から目標設定への衝突のない経路を見つけることである。
近年,高額な専門家によるデモンストレーションを必要とせず,行動計画問題に対処するための自己指導型学習手法が出現している。
彼らはニューラルネットワークのトレーニングのためのアイコン方程式を解き、効率的な解をもたらす。
しかし、これらの手法は、最適値関数や測地距離のようなアイコン方程式の鍵的性質を維持できないため、複雑な環境では困難である。
これらの制約を克服するために,より正確にアイコン方程式を解き,複雑で目に見えない計画課題の解法における性能を向上させる,新しい自己教師付き時間差計量学習手法を提案する。
本手法はベルマンの有限領域に対する最適性原理を強制し,時間差学習を用いて局所最小値の急激さを回避するとともに,計量学習を取り入れてアイコン方程式の本質的測地特性の保存を行う。
本研究では,複雑な環境を扱う上で,ロボットの構成を2~12自由度(DOF)に設定することで,既存の自己教師型学習手法を著しく上回っていることを実証する。
関連論文リスト
- Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications [11.010530034121224]
本稿では,学習速度を大幅に向上させる新しいQ-ラーニングアルゴリズムを提案する。
サンプル効率の向上は、ミッションが成功に寄与する可能性のある方向への探索を優先する、ミッション駆動の探査戦略に由来する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Fast Kinodynamic Planning on the Constraint Manifold with Deep Neural
Networks [29.239926645660823]
本稿では,制約多様体の概念を利用した新しい学習計画フレームワークを提案する。
我々の手法は任意の制約を満たす計画を生成し、ニューラルネットワークの推論時間という短い一定時間でそれらを計算する。
我々は,2つのシミュレートされたタスクと,ロボット・エアホッケーにおける打撃動作を実行するために,クカ・LBRIiwa 14ロボットアームを用いた実世界のシナリオに対して,我々のアプローチを検証した。
論文 参考訳(メタデータ) (2023-01-11T06:54:11Z) - Learning-based Motion Planning in Dynamic Environments Using GNNs and
Temporal Encoding [15.58317292680615]
組込みとエッジ優先化ポリシの両方を学習するために,データアグリゲーションを用いた時間符号化と模倣学習を用いたGNNベースのアプローチを提案する。
実験により, 提案手法は, 最先端の完全な動的計画アルゴリズムよりも, オンラインプランニングを著しく高速化できることが示された。
論文 参考訳(メタデータ) (2022-10-16T01:27:16Z) - Overcoming Exploration: Deep Reinforcement Learning in Complex
Environments from Temporal Logic Specifications [2.8904578737516764]
本稿では,大規模複雑な環境に展開する未知の連続時間ダイナミクスを有するタスク誘導型ロボットのためのDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。
論文 参考訳(メタデータ) (2022-01-28T16:39:08Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。