Fugu-MT 論文翻訳(概要): RVT: Robotic View Transformer for 3D Object Manipulation

論文の概要: RVT: Robotic View Transformer for 3D Object Manipulation

arxiv url: http://arxiv.org/abs/2306.14896v1
Date: Mon, 26 Jun 2023 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 12:09:17.236619
Title: RVT: Robotic View Transformer for 3D Object Manipulation
Title（参考訳）: rvt: 3dオブジェクト操作のためのロボットビュートランスフォーマー
Authors: Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox
Abstract要約: 本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
参考スコア（独自算出の注目度）: 46.25268237442356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For 3D object manipulation, methods that build an explicit 3D representation perform better than those relying only on camera images. But using explicit 3D representations like voxels comes at large computing cost, adversely affecting scalability. In this work, we propose RVT, a multi-view transformer for 3D manipulation that is both scalable and accurate. Some key features of RVT are an attention mechanism to aggregate information across views and re-rendering of the camera input from virtual views around the robot workspace. In simulations, we find that a single RVT model works well across 18 RLBench tasks with 249 task variations, achieving 26% higher relative success than the existing state-of-the-art method (PerAct). It also trains 36X faster than PerAct for achieving the same performance and achieves 2.3X the inference speed of PerAct. Further, RVT can perform a variety of manipulation tasks in the real world with just a few ($\sim$10) demonstrations per task. Visual results, code, and trained model are provided at https://robotic-view-transformer.github.io/.
Abstract（参考訳）: 3Dオブジェクト操作では、明示的な3D表現を構築する手法は、カメラ画像のみに依存する方法よりも優れている。しかしvoxelsのような明示的な3d表現を使うことは、大きなコンピューティングコストを伴い、スケーラビリティに悪影響を及ぼす。本研究では,スケーラブルかつ高精度な3次元操作用マルチビュートランスであるRVTを提案する。 RVTの重要な特徴は、ビューにまたがる情報を集約するアテンションメカニズムと、ロボットワークスペース周辺の仮想ビューから入力されたカメラの再レンダリングである。シミュレーションでは,1つのRVTモデルが18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し,既存の最先端手法(PerAct)よりも26%高い相対的成功率を達成した。また、同じ性能を達成するためにPerActよりも36倍速くトレーニングし、PerActの推論速度の2.3倍を達成する。さらにRVTは、タスクごとにほんの数($10)のデモで、現実世界でさまざまな操作タスクを実行することができる。視覚的な結果、コード、トレーニングされたモデルはhttps://robotic-view-transformer.github.io/で提供される。

関連論文リスト

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文参考訳（メタデータ） (2025-05-09T05:32:40Z)
Robotic Visual Instruction [16.826043418403614]
ロボット視覚指導(RoVI)は,物体中心の手描きシンボル表現を通じてロボットタスクを誘導する新しいパラダイムである。 RoVIは空間的時間情報を2Dスケッチを通じて人間の解釈可能な視覚命令にエンコードする。本稿では,ロビ条件付きポリシーのためのパイプラインであるVisual Instruction Embodied(VIEW)を提案する。
論文参考訳（メタデータ） (2025-05-01T17:55:05Z)
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文参考訳（メタデータ） (2024-09-26T17:57:16Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。 CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文参考訳（メタデータ） (2024-06-27T08:13:33Z)
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
論文参考訳（メタデータ） (2024-06-26T08:17:59Z)
RVT-2: Learning Precise Manipulation from Few Demonstrations [43.48649783097065]
RVT-2は、トレーニングで6倍、推論で2倍高速なマルチタスク3D操作モデルである。 RLBenchの新たな最先端を実現し、成功率は65%から82%に向上した。 RVT-2は実世界でも有効であり、プラグの拾い上げや挿入といった高精度なタスクを10回のデモで学べる。
論文参考訳（メタデータ） (2024-06-12T18:00:01Z)
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文参考訳（メタデータ） (2023-06-30T17:34:06Z)
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。 PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2022-09-12T17:51:05Z)
R3M: A Universal Visual Representation for Robot Manipulation [91.55543664116209]
多様な人間の映像データに基づいて事前訓練された視覚表現が、ロボット操作タスクのデータ効率の学習を可能にする方法について検討する。 R3Mは、CLIPやMoCoのような最先端のビジュアル表現と比較して、スクラッチからのトレーニングよりも20%以上改善し、10%以上改善しています。
論文参考訳（メタデータ） (2022-03-23T17:55:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。