論文の概要: Learning from Sparse Demonstrations
- arxiv url: http://arxiv.org/abs/2008.02159v3
- Date: Mon, 8 Aug 2022 21:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 19:06:21.874141
- Title: Learning from Sparse Demonstrations
- Title(参考訳): まばらなデモから学ぶ
- Authors: Wanxin Jin, Todd D. Murphey, Dana Kuli\'c, Neta Ezer, Shaoshuai Mou
- Abstract要約: 本稿では,ロボットが対象関数を学習できる連続ポントリャーギン微分可能計画法(Continuous PDP)を開発した。
本手法は,ロボットの軌道を逐次追従する目的関数と時間ワープ関数を最小の差分損失で検出する。
本手法はまず,シミュレーションロボットアームを用いて評価し,次に6-DoF四重極子に適用し,非モデル化環境における動作計画の目的関数を学習する。
- 参考スコア(独自算出の注目度): 17.24236148404065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops the method of Continuous Pontryagin Differentiable
Programming (Continuous PDP), which enables a robot to learn an objective
function from a few sparsely demonstrated keyframes. The keyframes, labeled
with some time stamps, are the desired task-space outputs, which a robot is
expected to follow sequentially. The time stamps of the keyframes can be
different from the time of the robot's actual execution. The method jointly
finds an objective function and a time-warping function such that the robot's
resulting trajectory sequentially follows the keyframes with minimal
discrepancy loss. The Continuous PDP minimizes the discrepancy loss using
projected gradient descent, by efficiently solving the gradient of the robot
trajectory with respect to the unknown parameters. The method is first
evaluated on a simulated robot arm and then applied to a 6-DoF quadrotor to
learn an objective function for motion planning in unmodeled environments. The
results show the efficiency of the method, its ability to handle time
misalignment between keyframes and robot execution, and the generalization of
objective learning into unseen motion conditions.
- Abstract(参考訳): 本稿では,ロボットがいくつかのキーフレームから目的関数を学習できる連続的ポントリャーギン微分可能プログラミング(continuous pdp)法を開発した。
タイムスタンプとラベル付けされたキーフレームは、ロボットが逐次追従することを期待するタスクスペース出力である。
キーフレームのタイムスタンプは、ロボットの実際の実行時とは異なる可能性がある。
本手法は、ロボットの軌道がキーフレームに連続的に追従し、最小の差分損失で目的関数とタイムワープ関数を共同で見つける。
連続PDPは、未知のパラメータに対するロボット軌道の勾配を効率的に解き、投射勾配降下による誤差損失を最小化する。
本手法は,まずシミュレーションロボットアームを用いて評価を行い,次に6自由度クワッドローターに適用し,非モデル化環境における運動計画の目的関数を学習する。
その結果,提案手法の効率性,キーフレーム間の時間的不一致とロボット実行の処理能力,非知覚運動条件への客観的学習の一般化が示された。
関連論文リスト
- ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation [31.211870350260703]
キーポイント制約(キーポイント制約、英: Keypoint Constraints)は、ロボット操作における制約を視覚的に表現した表現である。
ReKepはPython関数として表現され、環境の3Dキーポイントのセットを数値的なコストにマッピングする。
車輪付きシングルアームプラットフォームと静止式デュアルアームプラットフォーム上でのシステム実装について述べる。
論文 参考訳(メタデータ) (2024-09-03T06:45:22Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本フレームワークは,ロボット操作のためのフローマッチングにより,手頃なモデル学習とトラジェクトリ生成を統一する。
評価の結果,提案手法は,言語プロンサによる手軽さを学習し,競争性能を向上することがわかった。
本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards [15.79235618199162]
本稿では,脚ロボットのための新しい学習ベース制御フレームワークを提案する。
脚のあるロボットの自然な移動における高レベルな目標を取り入れている。
マルチクリティック強化学習アルゴリズムを用いて、密集した報酬とスパース報酬の混合を処理する。
論文 参考訳(メタデータ) (2024-07-16T10:15:35Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Pose Estimation for Robot Manipulators via Keypoint Optimization and
Sim-to-Real Transfer [10.369766652751169]
キーポイント検出は多くのロボットアプリケーションにとって重要なビルディングブロックである。
ディープラーニング手法は、マーカーのない方法でユーザ定義キーポイントを検出できる。
これらの課題を克服するキーポイントを定義するための,新たな自律的手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T22:38:37Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。