論文の概要: Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning
- arxiv url: http://arxiv.org/abs/2503.04877v1
- Date: Thu, 06 Mar 2025 18:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:01.541158
- Title: Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning
- Title(参考訳): Adapt3R:模倣学習におけるドメイン転送のための適応型3次元シーン表現
- Authors: Albert Wilcox, Mohamed Ghanem, Masoud Moghani, Pierre Barroso, Benjamin Joffe, Animesh Garg,
- Abstract要約: キャリブレーションされたRGBDカメラからの観察を取り入れた3次元シーン表現は、ILポリシーの一般化性を改善する方法として提案されている。
本稿では、1つ以上のRGBDカメラからのデータを1つのベクトルに合成し、任意のILアルゴリズムの条件付けとして使用できる新しいアーキテクチャを用いたAdaptive 3D Scene Representation(Adapt3R)を提案する。
我々は,複数のSOTAマルチタスクILアルゴリズムを用いてエンドツーエンドにトレーニングを行った場合,Adapt3Rはこれらのアルゴリズムのマルチタスク学習能力を維持しつつ,新規なエンボディメントやカメラポーズへのゼロショット転送を可能にしていることを示す。
- 参考スコア(独自算出の注目度): 28.80962812015936
- License:
- Abstract: Imitation Learning (IL) has been very effective in training robots to perform complex and diverse manipulation tasks. However, its performance declines precipitously when the observations are out of the training distribution. 3D scene representations that incorporate observations from calibrated RGBD cameras have been proposed as a way to improve generalizability of IL policies, but our evaluations in cross-embodiment and novel camera pose settings found that they show only modest improvement. To address those challenges, we propose Adaptive 3D Scene Representation (Adapt3R), a general-purpose 3D observation encoder which uses a novel architecture to synthesize data from one or more RGBD cameras into a single vector that can then be used as conditioning for arbitrary IL algorithms. The key idea is to use a pretrained 2D backbone to extract semantic information about the scene, using 3D only as a medium for localizing this semantic information with respect to the end-effector. We show that when trained end-to-end with several SOTA multi-task IL algorithms, Adapt3R maintains these algorithms' multi-task learning capacity while enabling zero-shot transfer to novel embodiments and camera poses. Furthermore, we provide a detailed suite of ablation and sensitivity experiments to elucidate the design space for point cloud observation encoders.
- Abstract(参考訳): イミテーション・ラーニング(IL)は、複雑で多様な操作作業を行うロボットの訓練に非常に効果的である。
しかし、観測結果がトレーニング分布外である場合には、その性能は急激に低下する。
キャリブレーションされたRGBDカメラからの観察を取り入れた3次元シーン表現は,ILポリシーの一般化性向上のための方法として提案されている。
これらの課題に対処するために,新しいアーキテクチャを用いて1つ以上のRGBDカメラからデータを単一のベクトルに合成し,任意のILアルゴリズムのコンディショニングとして使用できる汎用3D観測エンコーダAdaptive 3D Scene Representation (Adapt3R)を提案する。
鍵となるアイデアは、事前訓練された2Dバックボーンを使用してシーンのセマンティック情報を抽出し、エンドエフェクタに関してこのセマンティック情報をローカライズするための媒体としてのみ3Dを使用することである。
我々は,複数のSOTAマルチタスクILアルゴリズムを用いてエンドツーエンドにトレーニングを行った場合,Adapt3Rはこれらのアルゴリズムのマルチタスク学習能力を維持しつつ,新規なエンボディメントやカメラポーズへのゼロショット転送を可能にしていることを示す。
さらに、点雲観測エンコーダの設計空間を解明するためのアブレーションおよび感度実験の詳細なスイートを提供する。
関連論文リスト
- GRAPE: Generalizable and Robust Multi-view Facial Capture [12.255610707737548]
ディープラーニングベースのマルチビュー顔キャプチャ手法は、従来のメッシュ登録パイプラインよりも数桁高速で、印象的な精度を示している。
本研究では,異なるカメラアレイ上での推論(すなわち,新しいデータをキャプチャする)に訓練されたモデルを容易に利用できるように,一般化能力を向上させることを目的とする。
FaMoSデータセットとFaceScapeデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-14T13:24:17Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Joint 3D Shape and Motion Estimation from Rolling Shutter Light-Field
Images [2.0277446818410994]
本研究では,ローリングシャッターセンサを備えた光界カメラで撮影した1枚の画像からシーンを3次元再構成する手法を提案する。
本手法は、光場に存在する3次元情報キューと、ローリングシャッター効果によって提供される動き情報を利用する。
本稿では,このセンサの撮像プロセスの汎用モデルと再投射誤差を最小化する2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-02T15:08:18Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。