論文の概要: On the Efficacy of 3D Point Cloud Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.06799v1
- Date: Sun, 11 Jun 2023 22:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:38:42.081825
- Title: On the Efficacy of 3D Point Cloud Reinforcement Learning
- Title(参考訳): 3Dポイントクラウド強化学習の有効性について
- Authors: Zhan Ling, Yunchao Yao, Xuanlin Li, Hao Su
- Abstract要約: 私たちは、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目しています。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
エージェント・オブジェクト/オブジェクト・オブジェクトの関係エンコーディングが重要な要素である場合、3DポイントクラウドRLは2Dよりも大幅に優れることがわかった。
- 参考スコア(独自算出の注目度): 20.4424883945357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on visual reinforcement learning (visual RL) have explored the
use of 3D visual representations. However, none of these work has
systematically compared the efficacy of 3D representations with 2D
representations across different tasks, nor have they analyzed 3D
representations from the perspective of agent-object / object-object
relationship reasoning. In this work, we seek answers to the question of when
and how do 3D neural networks that learn features in the 3D-native space
provide a beneficial inductive bias for visual RL. We specifically focus on 3D
point clouds, one of the most common forms of 3D representations. We
systematically investigate design choices for 3D point cloud RL, leading to the
development of a robust algorithm for various robotic manipulation and control
tasks. Furthermore, through comparisons between 2D image vs 3D point cloud RL
methods on both minimalist synthetic tasks and complex robotic manipulation
tasks, we find that 3D point cloud RL can significantly outperform the 2D
counterpart when agent-object / object-object relationship encoding is a key
factor.
- Abstract(参考訳): 視覚強化学習(visual RL)の最近の研究は、3次元視覚表現の利用を探求している。
しかしながら、これらの研究は、エージェント・オブジェクト・オブジェクト関係推論の観点から3次元表現と異なるタスク間の2次元表現の有効性を体系的に比較したものではない。
本研究では,3dネイティブ空間で特徴を学習する3dニューラルネットワークが,ビジュアルrlにとって有益な帰納的バイアスとなるかどうか,その疑問に対する答えを求める。
特に、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目します。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
さらに、ミニマリスト合成タスクと複雑なロボット操作タスクの両方において、2D画像と3DポイントクラウドRL法の比較により、3DポイントクラウドRLがエージェントオブジェクト/オブジェクト関係エンコーディングが重要な要素である場合、その2Dよりも大幅に優れていることがわかった。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。