論文の概要: CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations
- arxiv url: http://arxiv.org/abs/2507.08262v1
- Date: Fri, 11 Jul 2025 02:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.223632
- Title: CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations
- Title(参考訳): CL3R:強化ロボットマニピュレーション表現のための3次元再構成とコントラスト学習
- Authors: Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang,
- Abstract要約: 本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
- 参考スコア(独自算出の注目度): 19.71090711790973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a robust perception module is crucial for visuomotor policy learning. While recent methods incorporate pre-trained 2D foundation models into robotic perception modules to leverage their strong semantic understanding, they struggle to capture 3D spatial information and generalize across diverse camera viewpoints. These limitations hinder the policy's effectiveness, especially in fine-grained robotic manipulation scenarios. To address these challenges, we propose CL3R, a novel 3D pre-training framework designed to enhance robotic manipulation policies. Our method integrates both spatial awareness and semantic understanding by employing a point cloud Masked Autoencoder to learn rich 3D representations while leveraging pre-trained 2D foundation models through contrastive learning for efficient semantic knowledge transfer. Additionally, we propose a 3D visual representation pre-training framework for robotic tasks. By unifying coordinate systems across datasets and introducing random fusion of multi-view point clouds, we mitigate camera view ambiguity and improve generalization, enabling robust perception from novel viewpoints at test time. Extensive experiments in both simulation and the real world demonstrate the superiority of our method, highlighting its effectiveness in visuomotor policy learning for robotic manipulation.
- Abstract(参考訳): 堅牢な認識モジュールの構築は、視覚的政策学習に不可欠である。
近年の手法では、事前学習された2D基礎モデルをロボット認識モジュールに組み込んで、その強い意味理解を活用する一方で、3D空間情報を捉え、多様なカメラ視点で一般化するのに苦労している。
これらの制限は、特にきめ細かいロボット操作シナリオにおいて、ポリシーの有効性を妨げている。
これらの課題に対処するために,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークであるCL3Rを提案する。
提案手法は,空間認識と意味理解の両面を,Masked Autoencoderを用いて学習し,事前学習した2次元基礎モデルを用いて,効率的な意味的知識伝達のためのコントラスト学習を行う。
さらに,ロボット作業のための3次元視覚表現事前学習フレームワークを提案する。
データセット間の座標系を統一し、多視点雲のランダムな融合を導入することにより、カメラビューのあいまいさを軽減し、一般化を向上し、テスト時の新しい視点からの堅牢な認識を可能にする。
シミュレーションと実世界の両方での大規模な実験により,ロボット操作におけるビジュモータ政策学習の有効性が示された。
関連論文リスト
- SEM: Enhancing Spatial Understanding for Robust Robot Manipulation [13.620151960111764]
SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
論文 参考訳(メタデータ) (2025-05-22T04:00:12Z) - EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation [44.08442553098017]
EmbodiedMAEはロボット操作のための統一された3D表現である。
EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-15T09:12:17Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。