論文の概要: RVT: Robotic View Transformer for 3D Object Manipulation
- arxiv url: http://arxiv.org/abs/2306.14896v1
- Date: Mon, 26 Jun 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:09:17.236619
- Title: RVT: Robotic View Transformer for 3D Object Manipulation
- Title(参考訳): rvt: 3dオブジェクト操作のためのロボットビュートランスフォーマー
- Authors: Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox
- Abstract要約: 本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。
単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
- 参考スコア(独自算出の注目度): 46.25268237442356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For 3D object manipulation, methods that build an explicit 3D representation
perform better than those relying only on camera images. But using explicit 3D
representations like voxels comes at large computing cost, adversely affecting
scalability. In this work, we propose RVT, a multi-view transformer for 3D
manipulation that is both scalable and accurate. Some key features of RVT are
an attention mechanism to aggregate information across views and re-rendering
of the camera input from virtual views around the robot workspace. In
simulations, we find that a single RVT model works well across 18 RLBench tasks
with 249 task variations, achieving 26% higher relative success than the
existing state-of-the-art method (PerAct). It also trains 36X faster than
PerAct for achieving the same performance and achieves 2.3X the inference speed
of PerAct. Further, RVT can perform a variety of manipulation tasks in the real
world with just a few ($\sim$10) demonstrations per task. Visual results, code,
and trained model are provided at https://robotic-view-transformer.github.io/.
- Abstract(参考訳): 3Dオブジェクト操作では、明示的な3D表現を構築する手法は、カメラ画像のみに依存する方法よりも優れている。
しかしvoxelsのような明示的な3d表現を使うことは、大きなコンピューティングコストを伴い、スケーラビリティに悪影響を及ぼす。
本研究では,スケーラブルかつ高精度な3次元操作用マルチビュートランスであるRVTを提案する。
RVTの重要な特徴は、ビューにまたがる情報を集約するアテンションメカニズムと、ロボットワークスペース周辺の仮想ビューから入力されたカメラの再レンダリングである。
シミュレーションでは,1つのRVTモデルが18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し,既存の最先端手法(PerAct)よりも26%高い相対的成功率を達成した。
また、同じ性能を達成するためにPerActよりも36倍速くトレーニングし、PerActの推論速度の2.3倍を達成する。
さらにRVTは、タスクごとにほんの数($10)のデモで、現実世界でさまざまな操作タスクを実行することができる。
視覚的な結果、コード、トレーニングされたモデルはhttps://robotic-view-transformer.github.io/で提供される。
関連論文リスト
- Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文 参考訳(メタデータ) (2024-06-27T08:13:33Z) - 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - RVT-2: Learning Precise Manipulation from Few Demonstrations [43.48649783097065]
RVT-2は、トレーニングで6倍、推論で2倍高速なマルチタスク3D操作モデルである。
RLBenchの新たな最先端を実現し、成功率は65%から82%に向上した。
RVT-2は実世界でも有効であり、プラグの拾い上げや挿入といった高精度なタスクを10回のデモで学べる。
論文 参考訳(メタデータ) (2024-06-12T18:00:01Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z) - R3M: A Universal Visual Representation for Robot Manipulation [91.55543664116209]
多様な人間の映像データに基づいて事前訓練された視覚表現が、ロボット操作タスクのデータ効率の学習を可能にする方法について検討する。
R3Mは、CLIPやMoCoのような最先端のビジュアル表現と比較して、スクラッチからのトレーニングよりも20%以上改善し、10%以上改善しています。
論文 参考訳(メタデータ) (2022-03-23T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。