論文の概要: Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning
- arxiv url: http://arxiv.org/abs/2512.00074v1
- Date: Tue, 25 Nov 2025 02:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.040673
- Title: Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning
- Title(参考訳): スケーラブルなロボット学習のためのブートストラップ動的3次元視覚表現
- Authors: Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu,
- Abstract要約: AFROは,行動や再建を伴わない3次元表現を学習する自己指導型フレームワークである。
視覚的特徴の質と安定性を改善し,特徴の相違と逆一貫性の監視を取り入れた。
Diffusion Policyと組み合わせると、AFROは16のシミュレーションと4つの実世界のタスクの操作成功率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 20.535171893983794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite strong results on recognition and segmentation, current 3D visual pre-training methods often underperform on robotic manipulation. We attribute this gap to two factors: the lack of state-action-state dynamics modeling and the unnecessary redundancy of explicit geometric reconstruction. We introduce AFRO, a self-supervised framework that learns dynamics-aware 3D representations without action or reconstruction supervision. AFRO casts state prediction as a generative diffusion process and jointly models forward and inverse dynamics in a shared latent space to capture causal transition structure. To prevent feature leakage in action learning, we employ feature differencing and inverse-consistency supervision, improving the quality and stability of visual features. When combined with Diffusion Policy, AFRO substantially increases manipulation success rates across 16 simulated and 4 real-world tasks, outperforming existing pre-training approaches. The framework also scales favorably with data volume and task complexity. Qualitative visualizations indicate that AFRO learns semantically rich, discriminative features, offering an effective pre-training solution for 3D representation learning in robotics. Project page: https://kolakivy.github.io/AFRO/
- Abstract(参考訳): 認識とセグメンテーションの強い結果にもかかわらず、現在の3D視覚前訓練法はロボット操作では性能が劣ることが多い。
このギャップは、状態-作用状態の動的モデリングの欠如と、明示的な幾何学的再構成の不要な冗長性という2つの要因に起因している。
AFROは、動的に認識される3D表現をアクションや再構成の監督なしに学習する自己教師型フレームワークである。
AFROは、状態予測を生成拡散過程として、共有潜在空間における前方および逆ダイナミクスを連成モデルにして因果遷移構造を捉える。
動作学習における特徴漏えいを防止するため,視覚的特徴の質と安定性を向上させるために,特徴差と逆一貫性の監視を用いる。
Diffusion Policyと組み合わせると、AFROは16のシミュレーションと4つの実世界のタスクの操作成功率を大幅に向上させ、既存の事前学習アプローチよりも優れている。
また、このフレームワークはデータボリュームとタスクの複雑さに優しくスケールする。
質的な視覚化は、ロボット工学における3D表現学習のための効果的な事前学習ソリューションを提供するために、AFROが意味的にリッチで差別的な特徴を学習していることを示している。
プロジェクトページ:https://kolakivy.github.io/AFRO/
関連論文リスト
- DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning [79.68241687396603]
本稿では,多種多様な組織間データセットから学習した生成フローから,形状の報酬を導出するGenFlowRLを提案する。
GenFlowRLは、生成したオブジェクト中心の流れから抽出した操作機能を効果的に活用できることを、シミュレーションと実世界のクロスエボディメント評価の両方で実証した。
論文 参考訳(メタデータ) (2025-08-14T20:19:20Z) - GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation [47.471097712217386]
既存のアプローチは、視覚入力から直接アクションを予測するV-A(Vision-to-A)パラダイムや、中間的な3D表現を活用するV-3D-to-A(Vision-to-A)パラダイムに従うのが一般的である。
本稿では,ガウスアクション場(GAF)を介して動作認識4D表現から直接行動推論を可能にするV-4D-Aフレームワークを採用する。
実験では、+11.5385 dB PSNR、+0.3864 SSIM、-0.5574 LPIPSの改善を達成し、平均+7.3%の成功を上げた。
論文 参考訳(メタデータ) (2025-06-17T02:55:20Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。