論文の概要: Learning from Sparse Demonstrations
- arxiv url: http://arxiv.org/abs/2008.02159v3
- Date: Mon, 8 Aug 2022 21:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 19:06:21.874141
- Title: Learning from Sparse Demonstrations
- Title(参考訳): まばらなデモから学ぶ
- Authors: Wanxin Jin, Todd D. Murphey, Dana Kuli\'c, Neta Ezer, Shaoshuai Mou
- Abstract要約: 本稿では,ロボットが対象関数を学習できる連続ポントリャーギン微分可能計画法(Continuous PDP)を開発した。
本手法は,ロボットの軌道を逐次追従する目的関数と時間ワープ関数を最小の差分損失で検出する。
本手法はまず,シミュレーションロボットアームを用いて評価し,次に6-DoF四重極子に適用し,非モデル化環境における動作計画の目的関数を学習する。
- 参考スコア(独自算出の注目度): 17.24236148404065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops the method of Continuous Pontryagin Differentiable
Programming (Continuous PDP), which enables a robot to learn an objective
function from a few sparsely demonstrated keyframes. The keyframes, labeled
with some time stamps, are the desired task-space outputs, which a robot is
expected to follow sequentially. The time stamps of the keyframes can be
different from the time of the robot's actual execution. The method jointly
finds an objective function and a time-warping function such that the robot's
resulting trajectory sequentially follows the keyframes with minimal
discrepancy loss. The Continuous PDP minimizes the discrepancy loss using
projected gradient descent, by efficiently solving the gradient of the robot
trajectory with respect to the unknown parameters. The method is first
evaluated on a simulated robot arm and then applied to a 6-DoF quadrotor to
learn an objective function for motion planning in unmodeled environments. The
results show the efficiency of the method, its ability to handle time
misalignment between keyframes and robot execution, and the generalization of
objective learning into unseen motion conditions.
- Abstract(参考訳): 本稿では,ロボットがいくつかのキーフレームから目的関数を学習できる連続的ポントリャーギン微分可能プログラミング(continuous pdp)法を開発した。
タイムスタンプとラベル付けされたキーフレームは、ロボットが逐次追従することを期待するタスクスペース出力である。
キーフレームのタイムスタンプは、ロボットの実際の実行時とは異なる可能性がある。
本手法は、ロボットの軌道がキーフレームに連続的に追従し、最小の差分損失で目的関数とタイムワープ関数を共同で見つける。
連続PDPは、未知のパラメータに対するロボット軌道の勾配を効率的に解き、投射勾配降下による誤差損失を最小化する。
本手法は,まずシミュレーションロボットアームを用いて評価を行い,次に6自由度クワッドローターに適用し,非モデル化環境における運動計画の目的関数を学習する。
その結果,提案手法の効率性,キーフレーム間の時間的不一致とロボット実行の処理能力,非知覚運動条件への客観的学習の一般化が示された。
関連論文リスト
- Real-time Holistic Robot Pose Estimation with Unknown States [32.23145849683204]
RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。
本稿では,1枚のRGB画像から実時間で総合的なポーズ推定を行うためのエンドツーエンドパイプラインを提案する。
本手法は,ロボットの状態パラメータ,キーポイント位置,ルート深さなど,カメラとロボットの回転を推定する。
論文 参考訳(メタデータ) (2024-02-08T13:12:50Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Intercepting A Flying Target While Avoiding Moving Obstacles: A Unified
Control Framework With Deep Manifold Learning [1.5229257192293197]
ロボットアームによるロボットアームによるリアルタイムな物体の干渉は、反応時間に対してほんの数ミリ秒しか許さない。
本稿では,高次元時間情報を埋め込んだロボット経路計画の統一的枠組みを提案する。
本研究は,オンボードセンシングと計算のみを用いた自律型7-DoFロボットアームへのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-27T18:46:52Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Pose Estimation for Robot Manipulators via Keypoint Optimization and
Sim-to-Real Transfer [10.369766652751169]
キーポイント検出は多くのロボットアプリケーションにとって重要なビルディングブロックである。
ディープラーニング手法は、マーカーのない方法でユーザ定義キーポイントを検出できる。
これらの課題を克服するキーポイントを定義するための,新たな自律的手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T22:38:37Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。