論文の概要: GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation
- arxiv url: http://arxiv.org/abs/2512.16811v1
- Date: Thu, 18 Dec 2025 17:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.187091
- Title: GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation
- Title(参考訳): Geo Predict: 精密VLAマニピュレーションのための予測力学と3次元ガウス幾何学の活用
- Authors: Jingjing Qian, Boyao Han, Chen Shi, Lei Xiao, Long Yang, Shaoshuai Shi, Li Jiang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心のままである。
予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。
RoboCasa Human-50、LIBERO、実世界の操作タスクの実験は、GeoPredictが強いVLAベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 26.632472450402947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models achieve strong generalization in robotic manipulation but remain largely reactive and 2D-centric, making them unreliable in tasks that require precise 3D reasoning. We propose GeoPredict, a geometry-aware VLA framework that augments a continuous-action policy with predictive kinematic and geometric priors. GeoPredict introduces a trajectory-level module that encodes motion history and predicts multi-step 3D keypoint trajectories of robot arms, and a predictive 3D Gaussian geometry module that forecasts workspace geometry with track-guided refinement along future keypoint trajectories. These predictive modules serve exclusively as training-time supervision through depth-based rendering, while inference requires only lightweight additional query tokens without invoking any 3D decoding. Experiments on RoboCasa Human-50, LIBERO, and real-world manipulation tasks show that GeoPredict consistently outperforms strong VLA baselines, especially in geometry-intensive and spatially demanding scenarios.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心であり、正確な3D推論を必要とするタスクでは信頼できない。
予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。
GeoPredictは、モーション履歴を符号化し、ロボットアームの多段階の3Dキーポイント軌跡を予測するトラジェクトリレベルのモジュールと、将来のキーポイント軌跡に沿ってトラック誘導洗練されたワークスペース幾何学を予測する予測3Dガウス幾何学モジュールを導入している。
これらの予測モジュールは深度ベースのレンダリングによるトレーニングタイムの監視にのみ機能する一方で、推論では3Dデコーディングを起動することなく、軽量なクエリトークンのみを必要とする。
RoboCasa Human-50, LIBERO, および実世界の操作タスクの実験では、GeoPredictは、特に幾何学的集約性や空間的に要求されるシナリオにおいて、強いVLAベースラインを一貫して上回っている。
関連論文リスト
- MP-GFormer: A 3D-Geometry-Aware Dynamic Graph Transformer Approach for Machining Process Planning [0.43553942673960666]
本稿では,3次元幾何学的表現をDGLに統合した3次元幾何学的動的グラフMP-GFormerを提案する。
本手法では,初期3次元設計における境界表現法を用いて,各加工操作後の部分の3次元形状を表すステレオリソグラフィ表面メッシュを利用する。
論文 参考訳(メタデータ) (2025-11-14T19:58:39Z) - PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting [56.188624157291024]
提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。
トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。
本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2025-10-21T15:15:33Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking [25.788917457593673]
TrackAny3Dは、カテゴリーに依存しない3D SOTのために、大規模な事前訓練された3Dモデルを転送する最初のフレームワークである。
MoGEアーキテクチャは、異なる幾何学的特徴に基づいて、特殊3ワークスを適応的に活性化する。
実験の結果,TrackAny3Dはカテゴリに依存しない3D SOT上での最先端性能を確立した。
論文 参考訳(メタデータ) (2025-07-26T10:41:55Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。