論文の概要: One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs
- arxiv url: http://arxiv.org/abs/2408.12674v2
- Date: Sun, 22 Sep 2024 22:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:37:29.202948
- Title: One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs
- Title(参考訳): パラメタライズドシンボリック抽象グラフによるワンショット映像の模倣
- Authors: Jianren Wang, Kangni Liu, Dingkun Guo, Xian Zhou, Christopher G Atkeson,
- Abstract要約: 我々は,Sybolicized Abstraction Graphs (PSAG) によるビデオデモの解釈を提案する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を示す。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
- 参考スコア(独自算出の注目度): 8.872100864022675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to manipulate dynamic and deformable objects from a single demonstration video holds great promise in terms of scalability. Previous approaches have predominantly focused on either replaying object relationships or actor trajectories. The former often struggles to generalize across diverse tasks, while the latter suffers from data inefficiency. Moreover, both methodologies encounter challenges in capturing invisible physical attributes, such as forces. In this paper, we propose to interpret video demonstrations through Parameterized Symbolic Abstraction Graphs (PSAG), where nodes represent objects and edges denote relationships between objects. We further ground geometric constraints through simulation to estimate non-geometric, visually imperceptible attributes. The augmented PSAG is then applied in real robot experiments. Our approach has been validated across a range of tasks, such as Cutting Avocado, Cutting Vegetable, Pouring Liquid, Rolling Dough, and Slicing Pizza. We demonstrate successful generalization to novel objects with distinct visual and physical properties.
- Abstract(参考訳): 動的で変形可能なオブジェクトを単一のデモビデオから操作することを学ぶことは、スケーラビリティという面で大きな約束である。
これまでのアプローチでは、オブジェクト関係のリプレイやアクターの軌跡に主に焦点が当てられていた。
前者は様々なタスクを一般化するのに苦労するが、後者はデータ非効率に悩まされる。
さらに、どちらの手法も、力などの見えない物理的特性を捉える際の課題に直面している。
本稿では,パラメータ化シンボル抽象グラフ(PSAG)を用いて,オブジェクトとエッジがオブジェクト間の関係を表すビデオデモを解釈する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を基礎とする。
強化PSAGは実際のロボット実験に応用される。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
視覚的・物理的特性の異なる新しい物体への一般化を成功に導く。
関連論文リスト
- GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Revealing Occlusions with 4D Neural Fields [19.71277637485384]
コンピュータビジョンシステムが動的に動作するためには、オブジェクトの永続性を表現し、推論できる必要がある。
本研究では,モノクロ時間から4次元視覚表現を推定する学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-22T20:14:42Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Generalizable task representation learning from human demonstration
videos: a geometric approach [4.640835690336654]
本研究では,ロボットやロボットの動きを訓練することなく,人間のデモビデオからタスク学習を一般化する問題について検討する。
本研究では,構造制約下でのタスク表現の学習にグラフ構造化タスク関数を用いたCoVGS-ILを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:57Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Attribute-Based Robotic Grasping with One-Grasp Adaptation [9.255994599301712]
本稿では,属性に基づくロボットグリップのエンドツーエンド学習手法を提案する。
提案手法は,作業空間の画像とクエリテキストの埋め込みをゲートアテンション機構を用いて融合し,インスタンスの把握能力の予測を学習する。
シミュレーションと実世界での実験結果は、私たちのアプローチが80%以上のインスタンスで未知のオブジェクトの成功率を把握できることを示しています。
論文 参考訳(メタデータ) (2021-04-06T03:40:46Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Learning Rope Manipulation Policies Using Dense Object Descriptors
Trained on Synthetic Depth Data [32.936908766549344]
本稿では,初期とゴールのロープ構成間の点対対応を学習する手法を提案する。
ABB YuMi Robotによるノットタイリングタスクの50回の試行では、これまで見つからなかった構成から66%のノットタイリング成功率を達成した。
論文 参考訳(メタデータ) (2020-03-03T23:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。