Fugu-MT 論文翻訳(概要): Learning Object Manipulation Skills via Approximate State Estimation from Real Videos

論文の概要: Learning Object Manipulation Skills via Approximate State Estimation from Real Videos

arxiv url: http://arxiv.org/abs/2011.06813v1
Date: Fri, 13 Nov 2020 08:53:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 23:55:03.449502
Title: Learning Object Manipulation Skills via Approximate State Estimation from Real Videos
Title（参考訳）: 実映像からの近似状態推定による物体操作スキルの学習
Authors: Vladim\'ir Petr\'ik, Makarand Tapaswi, Ivan Laptev, Josef Sivic
Abstract要約: 人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
参考スコア（独自算出の注目度）: 47.958512470724926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans are adept at learning new tasks by watching a few instructional videos. On the other hand, robots that learn new actions either require a lot of effort through trial and error, or use expert demonstrations that are challenging to obtain. In this paper, we explore a method that facilitates learning object manipulation skills directly from videos. Leveraging recent advances in 2D visual recognition and differentiable rendering, we develop an optimization based method to estimate a coarse 3D state representation for the hand and the manipulated object(s) without requiring any supervision. We use these trajectories as dense rewards for an agent that learns to mimic them through reinforcement learning. We evaluate our method on simple single- and two-object actions from the Something-Something dataset. Our approach allows an agent to learn actions from single videos, while watching multiple demonstrations makes the policy more robust. We show that policies learned in a simulated environment can be easily transferred to a real robot.
Abstract（参考訳）: 人間は、いくつかの指導ビデオを見て新しいタスクを学ぶのが得意です。一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。 2次元視覚認識と微分可能レンダリングの最近の進歩を活かし,手と操作対象の粗い3次元状態表現を,何の監督も必要とせずに推定する最適化手法を開発した。我々はこれらの特徴を強化学習を通じて模倣することを学ぶエージェントに対する密接な報酬として利用する。提案手法は,何かのデータセットから単目的および2目的の単純なアクションで評価する。このアプローチにより、エージェントは単一のビデオからアクションを学ぶことができ、同時に複数のデモを見ることでポリシーをより堅牢にする。シミュレーション環境で学習したポリシーは、実際のロボットに容易に移行できることを示す。

関連論文リスト

Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:59:06Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Learning Object Manipulation Skills from Video via Approximate Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文参考訳（メタデータ） (2022-08-03T10:21:47Z)
Learning Generalizable Dexterous Manipulation from Human Grasp Affordance [11.060931225148936]
マルチフィンガーハンドによる有害な操作は、ロボット工学における最も難しい問題の1つだ。模倣学習の最近の進歩は、強化学習と比較してサンプル効率を大幅に改善した。本稿では,様々な3Dオブジェクトをカテゴリ内に配置した大規模実演を用いて,デクスタラスな操作を学習することを提案する。
論文参考訳（メタデータ） (2022-04-05T16:26:22Z)
A Differentiable Recipe for Learning Visual Non-Prehensile Planar Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文参考訳（メタデータ） (2021-11-09T18:39:45Z)
Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文参考訳（メタデータ） (2021-01-18T18:50:32Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。