論文の概要: DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.24261v1
- Date: Tue, 28 Oct 2025 10:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.016603
- Title: DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation
- Title(参考訳): DynaRend:ロボットマニピュレーションのためのマスク付きフューチャーレンダリングによる3Dダイナミクスの学習
- Authors: Jingyi Tian, Le Wang, Sanping Zhou, Sen Wang, Jiayi Li, Gang Hua,
- Abstract要約: 本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
- 参考スコア(独自算出の注目度): 52.136378691610524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generalizable robotic manipulation policies remains a key challenge due to the scarcity of diverse real-world training data. While recent approaches have attempted to mitigate this through self-supervised representation learning, most either rely on 2D vision pretraining paradigms such as masked image modeling, which primarily focus on static semantics or scene geometry, or utilize large-scale video prediction models that emphasize 2D dynamics, thus failing to jointly learn the geometry, semantics, and dynamics required for effective manipulation. In this paper, we present DynaRend, a representation learning framework that learns 3D-aware and dynamics-informed triplane features via masked reconstruction and future prediction using differentiable volumetric rendering. By pretraining on multi-view RGB-D video data, DynaRend jointly captures spatial geometry, future dynamics, and task semantics in a unified triplane representation. The learned representations can be effectively transferred to downstream robotic manipulation tasks via action value map prediction. We evaluate DynaRend on two challenging benchmarks, RLBench and Colosseum, as well as in real-world robotic experiments, demonstrating substantial improvements in policy success rate, generalization to environmental perturbations, and real-world applicability across diverse manipulation tasks.
- Abstract(参考訳): さまざまな現実世界のトレーニングデータが不足しているため、汎用的なロボット操作ポリシーの学習は依然として重要な課題である。
近年のアプローチでは、自己教師付き表現学習によってこれを緩和しようとしているが、ほとんどの場合、静的セマンティクスやシーン幾何学に主に焦点をあてるマスク付き画像モデリングのような2次元視覚前訓練パラダイムや、2次元ダイナミクスを強調する大規模ビデオ予測モデルを利用するため、効果的操作に必要な幾何学、セマンティクス、ダイナミクスを共同学習することができない。
本稿では,DynaRendを提案する。DynaRendは3次元認識と動的インフォームド三面体の特徴をマスクによる再構成と,可変ボリュームレンダリングを用いた将来の予測によって学習する表現学習フレームワークである。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
学習した表現は、アクション値マップ予測を通じて、下流のロボット操作タスクに効果的に転送することができる。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークと、実際のロボット実験での評価を行い、政策成功率、環境摂動への一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
関連論文リスト
- GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。