論文の概要: Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics
- arxiv url: http://arxiv.org/abs/2208.01960v1
- Date: Wed, 3 Aug 2022 10:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:28:19.366484
- Title: Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics
- Title(参考訳): 近似微分物理による映像からの物体操作スキルの学習
- Authors: Vladimir Petrik, Mohammad Nomaan Qureshi, Josef Sivic, Makarand
Tapaswi
- Abstract要約: 我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 27.923004421974156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to teach robots to perform simple object manipulation tasks by
watching a single video demonstration. Towards this goal, we propose an
optimization approach that outputs a coarse and temporally evolving 3D scene to
mimic the action demonstrated in the input video. Similar to previous work, a
differentiable renderer ensures perceptual fidelity between the 3D scene and
the 2D video. Our key novelty lies in the inclusion of a differentiable
approach to solve a set of Ordinary Differential Equations (ODEs) that allows
us to approximately model laws of physics such as gravity, friction, and
hand-object or object-object interactions. This not only enables us to
dramatically improve the quality of estimated hand and object states, but also
produces physically admissible trajectories that can be directly translated to
a robot without the need for costly reinforcement learning. We evaluate our
approach on a 3D reconstruction task that consists of 54 video demonstrations
sourced from 9 actions such as pull something from right to left or put
something in front of something. Our approach improves over previous
state-of-the-art by almost 30%, demonstrating superior quality on especially
challenging actions involving physical interactions of two objects such as put
something onto something. Finally, we showcase the learned skills on a Franka
Emika Panda robot.
- Abstract(参考訳): ロボットに単純なオブジェクト操作のタスクを1つのビデオデモで教えることを目的としている。
この目的に向けて,入力ビデオで示される動作を模倣するために,粗大かつ時間的に変化する3Dシーンを出力する最適化手法を提案する。
前の作品と同様、微分可能なレンダラは3dシーンと2dビデオの知覚的忠実性を保証する。
我々の重要な斬新さは、重力、摩擦、手対象またはオブジェクトの相互作用のような物理学のモデル法則を近似化できる、常微分方程式(ode)の集合を解くための微分可能なアプローチを含むことである。
これにより、推定手や物体の状態の質が劇的に向上するだけでなく、コストのかかる強化学習を必要とせずに直接ロボットに翻訳できる物理的に許容できる軌道も生成できる。
右から左へ引いたり,何かの前に何かを置くといった,9つのアクションから得られる54個のビデオデモからなる3次元再構成タスクに対するアプローチを評価した。
私たちのアプローチは,これまでの最先端技術よりも約30%向上し,何かを置くなど2つのオブジェクトの物理的相互作用を伴う特に困難なアクションにおいて,優れた品質を示している。
最後に、学習したスキルをFranka Emika Pandaロボットで披露する。
関連論文リスト
- Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。