論文の概要: VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.16724v1
- Date: Thu, 18 Dec 2025 16:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.15725
- Title: VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation
- Title(参考訳): VERM:効率的な3Dロボットマニピュレーションのための仮想眼を作るために基礎モデルを活用する
- Authors: Yixiang Chen, Yan Huang, Keji He, Peiyan Li, Liang Wang,
- Abstract要約: マルチカメラのセットアップは計算コストを増大させ、タスク関連の詳細を抽出するトレーニングに余分な時間を費やすようにモデルを強制する。
構築した3Dポイントクラウドからの仮想タスク適応ビューを想定するVERM(Virtual Eye for Robotic Manipulation)手法を提案する。
3次元動作計画と微粒化操作を容易にするため,我々はさらに深度認識モジュールと動的粗粒化プロシージャを設計する。
- 参考スコア(独自算出の注目度): 9.95654157461894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When performing 3D manipulation tasks, robots have to execute action planning based on perceptions from multiple fixed cameras. The multi-camera setup introduces substantial redundancy and irrelevant information, which increases computational costs and forces the model to spend extra training time extracting crucial task-relevant details. To filter out redundant information and accurately extract task-relevant features, we propose the VERM (Virtual Eye for Robotic Manipulation) method, leveraging the knowledge in foundation models to imagine a virtual task-adaptive view from the constructed 3D point cloud, which efficiently captures necessary information and mitigates occlusion. To facilitate 3D action planning and fine-grained manipulation, we further design a depth-aware module and a dynamic coarse-to-fine procedure. Extensive experimental results on both simulation benchmark RLBench and real-world evaluations demonstrate the effectiveness of our method, surpassing previous state-of-the-art methods while achieving 1.89x speedup in training time and 1.54x speedup in inference speed. More results can be found on our project website at https://verm-ral.github.io .
- Abstract(参考訳): 3D操作タスクを行う場合、ロボットは複数の固定カメラからの認識に基づいて行動計画を実行する必要がある。
マルチカメラのセットアップは、相当な冗長性と無関係な情報を導入し、計算コストを増大させ、重要なタスク関連の詳細を抽出するために余分なトレーニング時間をかけるようにモデルを強制する。
冗長な情報をフィルタリングし,タスク関連特徴を正確に抽出するために,構築された3Dポイントクラウドから仮想タスク適応ビューを想像するための基礎モデルの知識を活用して,必要な情報を効率的に取得し,閉塞を軽減するVERM(Virtual Eye for Robotic Manipulation)手法を提案する。
3次元動作計画と微粒化操作を容易にするため,我々はさらに深度認識モジュールと動的粗粒化プロシージャを設計する。
シミュレーションベンチマークRLBenchと実世界の両方の実験結果から,従来の最先端手法を上回り,トレーニング時間で1.89倍,推論速度で1.54倍の高速化を実現した。
さらなる結果はプロジェクトのWebサイト https://verm-ral.github.io で確認できます。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - EfficientDepth: A Fast and Detail-Preserving Monocular Depth Estimation Model [1.4525559282354221]
我々は、トランスフォーマーアーキテクチャと軽量畳み込みデコーダを組み合わせた、EfficientDepthと呼ばれる新しいMDEシステムを導入する。
我々は,ハイパフォーマンスなMDE法を用いて,ラベル付き合成画像と実画像と,擬似ラベル付き実画像の組み合わせでモデルを訓練する。
一般的に使用される目的に加えて,LPIPSに基づく損失関数を導入し,ネットワークが詳細な深度マップを作成することを奨励する。
論文 参考訳(メタデータ) (2025-09-26T16:05:43Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation [44.08442553098017]
EmbodiedMAEはロボット操作のための統一された3D表現である。
EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-15T09:12:17Z) - Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation [2.434849352801735]
VLM(Vision-Language Models)は、ロボット操作において顕著な可能性を示す。
しかし、複雑な微調整タスクを高速かつ高精度で実行する際の課題は継続する。
本稿では,ロボットの高速かつ高精度かつ誤り訂正可能な微調整を可能にするプログレッシブVLM計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-07T00:55:42Z) - 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning [2.6670748466660523]
視覚言語モデル(VLM)はシーン理解と知覚タスクにおいて顕著な成功を収めた。
VLMにはロバストな3Dシーンのローカライズ機能がなく、ロボット操作の精度を制限している。
本稿では,2次元画像を点雲にマッピングすることで,2次元プロンプト合成モジュールを統合し,VLM出力を監視するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:40:19Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。