論文の概要: GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.15733v1
- Date: Fri, 19 Sep 2025 08:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.065621
- Title: GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation
- Title(参考訳): GP3:ロボットマニピュレーションのための多視点画像を用いた3次元幾何認識ポリシー
- Authors: Quanhao Qian, Guoyang Zhao, Gongjie Zhang, Jiuniu Wang, Ran Xu, Junlong Gao, Deli Zhao,
- Abstract要約: GP3は3D幾何学を意識したロボット操作のポリシーである。
空間エンコーダを用いて、RGB観測から密集した空間特徴を推測する。
シミュレーションベンチマークにおける最先端の手法を一貫して上回る。
- 参考スコア(独自算出の注目度): 32.06815473893274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective robotic manipulation relies on a precise understanding of 3D scene geometry, and one of the most straightforward ways to acquire such geometry is through multi-view observations. Motivated by this, we present GP3 -- a 3D geometry-aware robotic manipulation policy that leverages multi-view input. GP3 employs a spatial encoder to infer dense spatial features from RGB observations, which enable the estimation of depth and camera parameters, leading to a compact yet expressive 3D scene representation tailored for manipulation. This representation is fused with language instructions and translated into continuous actions via a lightweight policy head. Comprehensive experiments demonstrate that GP3 consistently outperforms state-of-the-art methods on simulated benchmarks. Furthermore, GP3 transfers effectively to real-world robots without depth sensors or pre-mapped environments, requiring only minimal fine-tuning. These results highlight GP3 as a practical, sensor-agnostic solution for geometry-aware robotic manipulation.
- Abstract(参考訳): 効果的なロボット操作は3次元シーン幾何学の正確な理解に依存しており、そのような幾何学を得る最も簡単な方法の1つは多視点観察である。
GP3は,多視点入力を利用する3次元幾何学的ロボット操作ポリシーである。
GP3は、RGB観測から密集した空間的特徴を推測するために空間エンコーダを使用し、深さとカメラパラメータの推定を可能にし、操作用に調整されたコンパクトで表現力のある3Dシーン表現をもたらす。
この表現は言語命令と融合し、軽量なポリシーヘッドを通じて継続的なアクションに変換される。
総合的な実験により、GP3はシミュレートされたベンチマークにおける最先端の手法より一貫して優れていることが示された。
さらにGP3は、奥行きセンサーやマップ済み環境のない現実世界のロボットに効果的に転送し、最小限の微調整しか必要としない。
これらの結果から,GP3は幾何学を意識したロボット操作のための実用的,センサに依存しないソリューションとして注目されている。
関連論文リスト
- Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement [31.59477627101119]
D$3$Fields -- 動的3D記述子フィールドを導入します。
これらのフィールドは暗黙的な3D表現であり、3Dポイントを取り込み、セマンティックな特徴とインスタンスマスクを出力する。
D$3$Fields はゼロショットの一般化可能な再配置タスクに有効であることを示す。
論文 参考訳(メタデータ) (2023-09-28T02:50:16Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文 参考訳(メタデータ) (2022-07-03T22:31:47Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。