論文の概要: Visual Reinforcement Learning with Self-Supervised 3D Representations
- arxiv url: http://arxiv.org/abs/2210.07241v1
- Date: Thu, 13 Oct 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:45:08.588668
- Title: Visual Reinforcement Learning with Self-Supervised 3D Representations
- Title(参考訳): 自己監督型3次元表現を用いた視覚強化学習
- Authors: Yanjie Ze, Nicklas Hansen, Yinbo Chen, Mohit Jain, Xiaolong Wang
- Abstract要約: 運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
- 参考スコア(独自算出の注目度): 15.991546692872841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prominent approach to visual Reinforcement Learning (RL) is to learn an
internal state representation using self-supervised methods, which has the
potential benefit of improved sample-efficiency and generalization through
additional learning signal and inductive biases. However, while the real world
is inherently 3D, prior efforts have largely been focused on leveraging 2D
computer vision techniques as auxiliary self-supervision. In this work, we
present a unified framework for self-supervised learning of 3D representations
for motor control. Our proposed framework consists of two phases: a pretraining
phase where a deep voxel-based 3D autoencoder is pretrained on a large
object-centric dataset, and a finetuning phase where the representation is
jointly finetuned together with RL on in-domain data. We empirically show that
our method enjoys improved sample efficiency in simulated manipulation tasks
compared to 2D representation learning methods. Additionally, our learned
policies transfer zero-shot to a real robot setup with only approximate
geometric correspondence, and successfully solve motor control tasks that
involve grasping and lifting from a single, uncalibrated RGB camera. Code and
videos are available at https://yanjieze.com/3d4rl/ .
- Abstract(参考訳): 視覚強化学習(rl)に対する顕著なアプローチは、自己教師あり法を用いて内部状態表現を学習することであり、学習信号の追加と帰納バイアスによるサンプル効率の向上と一般化の潜在的な利点がある。
しかし、現実の世界は本質的に3Dであるが、従来の取り組みは補助的な自己スーパービジョンとして2Dコンピュータビジョン技術を活用することに集中してきた。
本研究では,運動制御のための3次元表現の自己教師型学習フレームワークを提案する。
提案するフレームワークは,深部ボクセルベース3Dオートエンコーダを大規模オブジェクト中心のデータセットで事前学習する事前学習フェーズと,その表現をドメイン内データ上でRLと併用する微調整フェーズとから構成される。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率が向上することを示す。
さらに、学習したポリシーは、近似幾何対応だけでゼロショットを実際のロボットに転送し、単一のRGBカメラからの掴み取りと持ち上げを含む運動制御タスクをうまく解決する。
コードとビデオはhttps://yanjieze.com/3d4rl/。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Enhancing 2D Representation Learning with a 3D Prior [21.523007105586217]
視覚データの堅牢で効果的な表現を学習することは、コンピュータビジョンの基本的な課題である。
従来、これはラベル付きデータによるトレーニングモデルによって達成される。
本稿では,3次元構造を明示的に強制することで,既存の自己管理手法を強化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T17:55:22Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Unsupervised Learning of Efficient Geometry-Aware Neural Articulated
Representations [89.1388369229542]
本稿では,3次元幾何認識による音声オブジェクトの表現学習のための教師なし手法を提案する。
私たちは、GANトレーニングで表現を学ぶことで、このニーズを回避します。
実験は,本手法の有効性を実証し,GANに基づくトレーニングにより,制御可能な3次元表現を,監督なしで学習できることを示す。
論文 参考訳(メタデータ) (2022-04-19T12:10:18Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。