論文の概要: VGGT-DP: Generalizable Robot Control via Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2509.18778v1
- Date: Tue, 23 Sep 2025 08:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.768921
- Title: VGGT-DP: Generalizable Robot Control via Vision Foundation Models
- Title(参考訳): VGGT-DP:ビジョンファウンデーションモデルによる汎用ロボット制御
- Authors: Shijia Ge, Yinxin Zhang, Shuzhao Xie, Weixiang Zhang, Mingcai Zhou, Zhi Wang,
- Abstract要約: VGGT-DPは、事前学習された3次元知覚モデルから幾何的先入観を受容的フィードバックと統合するビジュモータ・ポリシー・フレームワークである。
我々は,視覚的エンコーダとしてVGGT(Visual Geometry Grounded Transformer)を採用し,視覚的知覚と内部ロボットの状態との整合性を実現するために,プロプリセプション誘導型視覚学習戦略を導入する。
挑戦的なMetaWorldタスクの実験では、VGGT-DPはDPやDP3のような強力なベースライン、特に精度クリティカルで長期のシナリオにおいて著しく優れていた。
- 参考スコア(独自算出の注目度): 13.41554759983567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual imitation learning frameworks allow robots to learn manipulation skills from expert demonstrations. While existing approaches mainly focus on policy design, they often neglect the structure and capacity of visual encoders, limiting spatial understanding and generalization. Inspired by biological vision systems, which rely on both visual and proprioceptive cues for robust control, we propose VGGT-DP, a visuomotor policy framework that integrates geometric priors from a pretrained 3D perception model with proprioceptive feedback. We adopt the Visual Geometry Grounded Transformer (VGGT) as the visual encoder and introduce a proprioception-guided visual learning strategy to align perception with internal robot states, improving spatial grounding and closed-loop control. To reduce inference latency, we design a frame-wise token reuse mechanism that compacts multi-view tokens into an efficient spatial representation. We further apply random token pruning to enhance policy robustness and reduce overfitting. Experiments on challenging MetaWorld tasks show that VGGT-DP significantly outperforms strong baselines such as DP and DP3, particularly in precision-critical and long-horizon scenarios.
- Abstract(参考訳): 視覚模倣学習フレームワークは、ロボットが専門家によるデモンストレーションから操作スキルを学習することを可能にする。
既存のアプローチは主にポリシー設計に重点を置いているが、視覚エンコーダの構造と能力を無視し、空間的理解と一般化を制限していることが多い。
生体視覚システムに触発され, 視覚的, プロモセプティヴな制御に利用され, VGGT-DPが提案され, 事前学習した3次元知覚モデルから, プロモセプティヴフィードバックを付加した幾何学的事前情報を統合する。
本研究では,視覚的エンコーダとしてVGGT(Visual Geometry Grounded Transformer)を採用し,空間的接地と閉ループ制御を改善した。
推論遅延を低減するために,多視点トークンを効率的な空間表現に変換するフレーム単位のトークン再利用機構を設計する。
さらに、ポリシーの堅牢性を高め、オーバーフィッティングを低減するためにランダムトークンプルーニングを適用します。
挑戦的なMetaWorldタスクの実験では、VGGT-DPはDPやDP3のような強力なベースライン、特に精度クリティカルで長期のシナリオにおいて著しく優れていた。
関連論文リスト
- CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。