論文の概要: ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations
- arxiv url: http://arxiv.org/abs/2509.11125v1
- Date: Sun, 14 Sep 2025 06:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.932573
- Title: ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations
- Title(参考訳): ManiVID-3D:分散3次元表現によるロボットマニピュレーションのための一般化可能なビュー不変強化学習
- Authors: Zheng Li, Pei Qu, Yufei Jia, Shihui Zhou, Haizhou Ge, Jiahang Cao, Jinni Zhou, Guyue Zhou, Jun Ma,
- Abstract要約: ManiVID-3Dはロボット操作のための新しい3Dビジュアル強化学習アーキテクチャである。
自己教師付き不整形特徴学習を通じて、ビュー不変表現を学習する。
現状の手法よりも44.7%高い成功率を達成する。
- 参考スコア(独自算出の注目度): 19.02933938928656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying visual reinforcement learning (RL) policies in real-world manipulation is often hindered by camera viewpoint changes. A policy trained from a fixed front-facing camera may fail when the camera is shifted--an unavoidable situation in real-world settings where sensor placement is hard to manage appropriately. Existing methods often rely on precise camera calibration or struggle with large perspective changes. To address these limitations, we propose ManiVID-3D, a novel 3D RL architecture designed for robotic manipulation, which learns view-invariant representations through self-supervised disentangled feature learning. The framework incorporates ViewNet, a lightweight yet effective module that automatically aligns point cloud observations from arbitrary viewpoints into a unified spatial coordinate system without the need for extrinsic calibration. Additionally, we develop an efficient GPU-accelerated batch rendering module capable of processing over 5000 frames per second, enabling large-scale training for 3D visual RL at unprecedented speeds. Extensive evaluation across 10 simulated and 5 real-world tasks demonstrates that our approach achieves a 44.7% higher success rate than state-of-the-art methods under viewpoint variations while using 80% fewer parameters. The system's robustness to severe perspective changes and strong sim-to-real performance highlight the effectiveness of learning geometrically consistent representations for scalable robotic manipulation in unstructured environments. Our project website can be found in https://zheng-joe-lee.github.io/manivid3d/.
- Abstract(参考訳): 実世界操作における視覚的強化学習(RL)ポリシーの展開は、しばしばカメラ視点の変化によって妨げられる。
固定前面カメラからトレーニングされたポリシーは、カメラがシフトした時に失敗する可能性がある。
既存の方法は、しばしば正確なカメラキャリブレーションに依存するか、大きな視点の変化に苦労する。
ロボット操作のための新しい3D RLアーキテクチャであるManiVID-3Dを提案する。
このフレームワークにはViewNetという軽量で効果的なモジュールが含まれており、任意の視点から点雲の観測を外部キャリブレーションを必要とせずに統一された空間座標系に自動的に整列する。
さらに,毎秒5000フレーム以上の処理が可能なGPU高速化バッチレンダリングモジュールを開発し,前例のない速度で3DビジュアルRLの大規模トレーニングを可能にする。
10のシミュレーションと5つの実世界のタスクにわたる広範囲な評価は、我々の手法が80%少ないパラメータを使用しながら、視点変化下での最先端の手法よりも44.7%高い成功率を達成することを示す。
このシステムの強靭さは、厳密な視点の変化と強力なsim-to-realパフォーマンスであり、非構造環境におけるスケーラブルなロボット操作のための幾何学的に一貫した表現の学習の有効性を強調している。
プロジェクトのWebサイトはhttps://zheng-joe-lee.github.io/manivid3d/にある。
関連論文リスト
- Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。