論文の概要: R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2603.14498v1
- Date: Sun, 15 Mar 2026 17:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.852926
- Title: R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation
- Title(参考訳): R3DP: 身体操作のためのリアルタイム3D認識ポリシー
- Authors: Yuhao Zhang, Wanxi Dong, Yue Shi, Yi Liang, Jingnan Gao, Qiaochu Yang, Yaxing Lyu, Zhixuan Liang, Yibin Liu, Congsheng Xu, Xianda Guo, Wei Sui, Yaohui Jin, Xiaokang Yang, Yanyan Xu, Yao Mu,
- Abstract要約: 本稿では,実時間性能を犠牲にすることなく,強力な3Dプリエントを操作ポリシーに統合するリアルタイム3D対応ポリシー(R3DP)を提案する。
R3DPは、より優れた結果を得るために、大規模な3Dプリエントを効果的に活用し、シングルビューとマルチビューDPを32.9%、平均成功率51.4%で上回っている。
- 参考スコア(独自算出の注目度): 45.41467771053697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied manipulation requires accurate 3D understanding of objects and their spatial relations to plan and execute contact-rich actions. While large-scale 3D vision models provide strong priors, their computational cost incurs prohibitive latency for real-time control. We propose Real-time 3D-aware Policy (R3DP), which integrates powerful 3D priors into manipulation policies without sacrificing real-time performance. A core innovation of R3DP is the asynchronous fast-slow collaboration module, which seamlessly integrates large-scale 3D priors into the policy without compromising real-time performance. The system maintains real-time efficiency by querying the pre-trained slow system (VGGT) only on sparse key frames, while simultaneously employing a lightweight Temporal Feature Prediction Network (TFPNet) to predict features for all intermediate frames. By leveraging historical data to exploit temporal correlations, TFPNet explicitly improves task success rates through consistent feature estimation. Additionally, to enable more effective multi-view fusion, we introduce a Multi-View Feature Fuser (MVFF) that aggregates features across views by explicitly incorporating camera intrinsics and extrinsics. R3DP offers a plug-and-play solution for integrating large models into real-time inference systems. We evaluate R3DP against multiple baselines across different visual configurations. R3DP effectively harnesses large-scale 3D priors to achieve superior results, outperforming single-view and multi-view DP by 32.9% and 51.4% in average success rate, respectively. Furthermore, by decoupling heavy 3D reasoning from policy execution, R3DP achieves a 44.8% reduction in inference time compared to a naive DP+VGGT integration.
- Abstract(参考訳): 身体的操作は、オブジェクトの正確な3次元理解と、その空間的関係を計画し、コンタクトリッチなアクションを実行するために必要である。
大規模3Dビジョンモデルは強力な先行性を提供するが、その計算コストはリアルタイム制御の遅延を禁止している。
本稿では,実時間性能を犠牲にすることなく,強力な3Dプリエントを操作ポリシーに統合するリアルタイム3D対応ポリシー(R3DP)を提案する。
R3DPのコアとなるイノベーションは非同期の高速スローコラボレーションモジュールで、リアルタイムのパフォーマンスを損なうことなく、大規模な3Dプリエントをシームレスに統合する。
このシステムは、未学習のスローシステム(VGGT)をスパースキーフレームのみに問い合わせ、同時に軽量な時間的特徴予測ネットワーク(TFPNet)を用いて全ての中間フレームの特徴を予測することで、リアルタイムの効率を維持する。
TFPNetは、履歴データを利用して時間的相関を利用して、一貫した特徴推定によってタスク成功率を明示的に向上する。
さらに、より効果的なマルチビュー融合を実現するために、カメラの内在と外在を明示的に組み込むことで、ビューにまたがる機能を集約するMulti-View Feature Fuser (MVFF)を導入する。
R3DPは、大規模なモデルをリアルタイム推論システムに統合するためのプラグアンドプレイソリューションを提供する。
視覚構成の異なる複数のベースラインに対してR3DPを評価する。
R3DPは、より優れた結果を得るために、大規模3Dプリエントを効果的に活用し、シングルビューとマルチビューDPをそれぞれ32.9%、平均成功率51.4%で上回っている。
さらに、政策実行から重い3D推論を分離することにより、R3DPは、単純DP+VGGT統合と比較して44.8%の推論時間を短縮する。
関連論文リスト
- 3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding [21.70953326671503]
映像に基づく3次元シーン理解のための強化ファインチューニング(3D-RFT)について
3D-RFTは、RLVRをビデオベースの3D知覚と推論に拡張する最初のフレームワークである。
3D-RFT-4Bは,様々な映像に基づく3Dシーン理解タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-05T09:15:16Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。