論文の概要: CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining
- arxiv url: http://arxiv.org/abs/2602.00937v1
- Date: Sat, 31 Jan 2026 23:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.474032
- Title: CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining
- Title(参考訳): CLAMP:3次元多視点動作記述型ロボットマニピュレーション事前学習のためのコントラスト学習
- Authors: I-Chun Arthur Liu, Krzysztof Choromanski, Sandy Huang, Connor Schenck,
- Abstract要約: 3次元多視点動作記述型ロボットマニピュレーション事前学習(CLAMP)のコントラスト学習について紹介する。
RGB-D画像とカメラ外部画像から計算した統合点雲から、深度と3次元座標によるマルチビュー4チャンネル画像観察を再レンダリングした。
事前訓練されたエンコーダは、オブジェクトの幾何学的および位置的情報とロボットのアクションパターンを関連付けることを学習する。
- 参考スコア(独自算出の注目度): 4.039082584778385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging pre-trained 2D image representations in behavior cloning policies has achieved great success and has become a standard approach for robotic manipulation. However, such representations fail to capture the 3D spatial information about objects and scenes that is essential for precise manipulation. In this work, we introduce Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining (CLAMP), a novel 3D pre-training framework that utilizes point clouds and robot actions. From the merged point cloud computed from RGB-D images and camera extrinsics, we re-render multi-view four-channel image observations with depth and 3D coordinates, including dynamic wrist views, to provide clearer views of target objects for high-precision manipulation tasks. The pre-trained encoders learn to associate the 3D geometric and positional information of objects with robot action patterns via contrastive learning on large-scale simulated robot trajectories. During encoder pre-training, we pre-train a Diffusion Policy to initialize the policy weights for fine-tuning, which is essential for improving fine-tuning sample efficiency and performance. After pre-training, we fine-tune the policy on a limited amount of task demonstrations using the learned image and action representations. We demonstrate that this pre-training and fine-tuning design substantially improves learning efficiency and policy performance on unseen tasks. Furthermore, we show that CLAMP outperforms state-of-the-art baselines across six simulated tasks and five real-world tasks.
- Abstract(参考訳): 行動クローニングポリシーにおける事前訓練された2次元画像表現の活用は大きな成功を収め、ロボット操作の標準的アプローチとなっている。
しかし、そのような表現は、正確な操作に不可欠なオブジェクトやシーンに関する3次元空間情報をキャプチャすることができない。
本稿では,ポイントクラウドとロボットアクションを利用する新しい3D事前学習フレームワークであるCLAMP(Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining)を紹介する。
RGB-D画像とカメラ外部画像から計算した統合点クラウドから、動的手首ビューを含む深度と3次元座標によるマルチビュー4チャンネル画像観察を再レンダリングし、高精度な操作タスクのためのターゲットオブジェクトのより明確なビューを提供する。
事前学習されたエンコーダは、大規模ロボット軌道上でのコントラスト学習により、物体の幾何学的および位置的情報とロボット行動パターンを関連付けることを学習する。
エンコーダの事前訓練中は、ディフュージョンポリシーを事前訓練し、細調整のためのポリシーウェイトを初期化し、細調整の効率と性能を改善するのに不可欠である。
事前学習後、学習した画像と行動表現を用いて、限られたタスクデモのポリシーを微調整する。
この事前学習および微調整設計により、未確認タスクにおける学習効率とポリシー性能が大幅に向上することが実証された。
さらに, CLAMPは6つのシミュレーションタスクと5つの実世界のタスクにおいて, 最先端のベースラインよりも優れていることを示す。
関連論文リスト
- VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation [9.95654157461894]
マルチカメラのセットアップは計算コストを増大させ、タスク関連の詳細を抽出するトレーニングに余分な時間を費やすようにモデルを強制する。
構築した3Dポイントクラウドからの仮想タスク適応ビューを想定するVERM(Virtual Eye for Robotic Manipulation)手法を提案する。
3次元動作計画と微粒化操作を容易にするため,我々はさらに深度認識モジュールと動的粗粒化プロシージャを設計する。
論文 参考訳(メタデータ) (2025-12-18T16:26:17Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - 4D Visual Pre-training for Robot Learning [71.22906081161324]
ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、近年大きな成功を収めている。
しかし、これらの事前訓練された表現は、主に2D画像に基づいており、世界の固有の3Dの性質を無視している。
代替として、すべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。
我々のフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-08-24T07:06:56Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
模倣学習は、ロボットに複雑な多様な操作タスクを実行するよう訓練することができるが、学習されたポリシーはトレーニング分布外の観察で不安定である。
本稿では,キャリブレーションされたRGBDカメラのデータを任意のILアルゴリズムの条件付けとして使用できるベクトルに合成する汎用3D観測エンコーダAdapt3Rを提案する。
93のシミュレーションと6つの実際のタスクを、さまざまなILアルゴリズムでエンドツーエンドにトレーニングすると、Adapt3Rはこれらのアルゴリズムの学習能力を維持しながら、新しいエボディメントやカメラのポーズへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2025-03-06T18:17:09Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。