論文の概要: Flow as the Cross-Domain Manipulation Interface
- arxiv url: http://arxiv.org/abs/2407.15208v1
- Date: Sun, 21 Jul 2024 16:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 18:49:14.262112
- Title: Flow as the Cross-Domain Manipulation Interface
- Title(参考訳): クロスドメインマニピュレーションインタフェースとしてのフロー
- Authors: Mengda Xu, Zhenjia Xu, Yinghao Xu, Cheng Chi, Gordon Wetzstein, Manuela Veloso, Shuran Song,
- Abstract要約: 我々は,多様なデータソースから操作スキルをロボットが取得できる学習フレームワークIm2Flow2Actを提案する。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
- 参考スコア(独自算出の注目度): 73.15952395641136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Im2Flow2Act, a scalable learning framework that enables robots to acquire manipulation skills from diverse data sources. The key idea behind Im2Flow2Act is to use object flow as the manipulation interface, bridging domain gaps between different embodiments (i.e., human and robot) and training environments (i.e., real-world and simulated). Im2Flow2Act comprises two components: a flow generation network and a flow-conditioned policy. The flow generation network, trained on human demonstration videos, generates object flow from the initial scene image, conditioned on the task description. The flow-conditioned policy, trained on simulated robot play data, maps the generated object flow to robot actions to realize the desired object movements. By using flow as input, this policy can be directly deployed in the real world with a minimal sim-to-real gap. By leveraging real-world human videos and simulated robot play data, we bypass the challenges of teleoperating physical robots in the real world, resulting in a scalable system for diverse tasks. We demonstrate Im2Flow2Act's capabilities in a variety of real-world tasks, including the manipulation of rigid, articulated, and deformable objects.
- Abstract(参考訳): 我々は、多様なデータソースから操作スキルをロボットが取得できるスケーラブルな学習フレームワークIm2Flow2Actを提案する。
Im2Flow2Actの背景にある重要な考え方は、操作インターフェースとしてオブジェクトフローを使用すること、異なる実施形態(人間とロボット)とトレーニング環境(現実世界とシミュレーション)の間のドメインギャップを埋めることである。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
人間のデモビデオに基づいて訓練されたフロー生成ネットワークは、タスク記述に基づいて初期シーン画像からオブジェクトフローを生成する。
シミュレーションされたロボットプレイデータに基づいて訓練されたフロー条件付きポリシーは、生成されたオブジェクトフローをロボットアクションにマッピングし、所望のオブジェクトの動きを実現する。
フローを入力として使うことで、このポリシーは最小限のsim-to-realギャップで現実世界に直接展開できる。
実世界の人間のビデオとシミュレーションされたロボットのプレイデータを活用することで、現実世界での物理的ロボットの遠隔操作という課題を回避し、多様なタスクのためのスケーラブルなシステムを実現する。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
関連論文リスト
- Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文 参考訳(メタデータ) (2024-06-27T06:12:01Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。