Fugu-MT 論文翻訳(概要): Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

論文の概要: Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

arxiv url: http://arxiv.org/abs/2406.18915v3
Date: Thu, 29 Aug 2024 16:07:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:47:03.384025
Title: Manipulate-Anything: Automating Real-World Robots using Vision-Language Models
Title（参考訳）: マニピュレーション・アニーシング:視覚言語モデルを用いた実世界ロボットの自動化
Authors: Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna,
Abstract要約: 実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
参考スコア（独自算出の注目度）: 47.16659229389889
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.
Abstract（参考訳）: Open-X-Embodimentのような大規模な取り組みやコミュニティの幅広い取り組みは、ロボットのデモデータの拡大に寄与している。しかし、ロボットのデモデータの質、量、多様性を改善する機会はまだ残っている。視覚言語モデルは、デモデータを自動的に生成することが示されているが、そのユーティリティは特権のある状態情報を持つ環境に限られており、手書きのスキルを必要とし、少数のオブジェクトインスタンスとのインタラクションに限られている。実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。従来の作業とは異なり,本手法は特権状態情報や手書きのスキルを使わずに実環境でも動作可能であり,静的オブジェクトを操作できる。提案手法を2つの設定を用いて評価する。第一に、Manipulate-Anythingは7つの現実世界と14のシミュレーションタスクの軌道を生成することに成功した。第2に、Manipulate-Anything氏のデモは、人間のデモを使用したトレーニングや、VoxPoser、Scaling-up、Code-As-Policiesによって生成されたデータより堅牢な行動クローンポリシーをトレーニングすることができる。 Manipulate-Anythingは、ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法であると考えています。プロジェクトページ: https://robot-ma.github.io/.com

関連論文リスト

Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文参考訳（メタデータ） (2025-12-17T18:35:54Z)
Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文参考訳（メタデータ） (2025-10-24T15:39:31Z)
ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文参考訳（メタデータ） (2025-03-31T09:27:00Z)
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文参考訳（メタデータ） (2024-09-24T17:57:33Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文参考訳（メタデータ） (2023-12-01T18:54:12Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。 Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文参考訳（メタデータ） (2023-06-20T07:06:04Z)
Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文参考訳（メタデータ） (2023-02-22T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。