論文の概要: Manipulate-Anything: Automating Real-World Robots using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.18915v2
- Date: Fri, 28 Jun 2024 02:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:50:27.710794
- Title: Manipulate-Anything: Automating Real-World Robots using Vision-Language Models
- Title(参考訳): マニピュレーション・アニーシング:視覚言語モデルを用いた実世界ロボットの自動化
- Authors: Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna,
- Abstract要約: 実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
- 参考スコア(独自算出の注目度): 47.16659229389889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale endeavors like RT-1 and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 5 real-world and 12 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser and Code-As-Policies. We believe Manipulate-Anything can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting.
- Abstract(参考訳): RT-1のような大規模な取り組みやOpen-X-Embodimentのような幅広いコミュニティの取り組みは、ロボットのデモデータの拡大に寄与している。
しかし、ロボットのデモデータの質、量、多様性を改善する機会はまだ残っている。
視覚言語モデルは、デモデータを自動的に生成することが示されているが、そのユーティリティは特権のある状態情報を持つ環境に限られており、手書きのスキルを必要とし、少数のオブジェクトインスタンスとのインタラクションに限られている。
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
従来の作業とは異なり,本手法は特権状態情報や手書きのスキルを使わずに実環境でも動作可能であり,静的オブジェクトを操作できる。
提案手法を2つの設定を用いて評価する。
第一に、Manipulate-Anythingは実世界の5つのタスクと12のシミュレーションタスクの軌跡をうまく生成し、VoxPoserのような既存の手法を著しく上回っている。
第2に、Manipulate-Anything氏のデモは、人間のデモを使用したトレーニングや、VoxPoserやCode-As-Policiesによって生成されたデータから、より堅牢な行動クローンポリシーをトレーニングすることができる。
ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法として、Manipulate-Anythingが有効であると考えています。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。