論文の概要: Unsupervised Learning of Visual 3D Keypoints for Control
- arxiv url: http://arxiv.org/abs/2106.07643v1
- Date: Mon, 14 Jun 2021 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:16:13.474400
- Title: Unsupervised Learning of Visual 3D Keypoints for Control
- Title(参考訳): 制御のための視覚的3次元キーポイントの教師なし学習
- Authors: Boyuan Chen, Pieter Abbeel, Deepak Pathak
- Abstract要約: 高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
- 参考スコア(独自算出の注目度): 104.92063943162896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning sensorimotor control policies from high-dimensional images crucially
relies on the quality of the underlying visual representations. Prior works
show that structured latent space such as visual keypoints often outperforms
unstructured representations for robotic control. However, most of these
representations, whether structured or unstructured are learned in a 2D space
even though the control tasks are usually performed in a 3D environment. In
this work, we propose a framework to learn such a 3D geometric structure
directly from images in an end-to-end unsupervised manner. The input images are
embedded into latent 3D keypoints via a differentiable encoder which is trained
to optimize both a multi-view consistency loss and downstream task objective.
These discovered 3D keypoints tend to meaningfully capture robot joints as well
as object movements in a consistent manner across both time and 3D space. The
proposed approach outperforms prior state-of-art methods across a variety of
reinforcement learning benchmarks. Code and videos at
https://buoyancy99.github.io/unsup-3d-keypoints/
- Abstract(参考訳): 高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
先行研究では、視覚キーポイントのような構造化された潜在空間が、ロボット制御のための非構造化表現よりも優れていることが示されている。
しかしながら、これらの表現のほとんどは、通常3次元環境で実行されるにもかかわらず、2次元空間で学習される。
本研究では,画像から3次元の幾何学構造を直接教師なしで学習するフレームワークを提案する。
入力画像は、多視点整合性損失と下流タスク目的の両方を最適化するように訓練された微分可能なエンコーダを介して、潜在3Dキーポイントに埋め込まれる。
これらの発見済みの3dキーポイントは、時間と3d空間の両方において、ロボットの関節や物体の動きを一貫して捉える傾向にあります。
提案手法は,様々な強化学習ベンチマークにおいて,先行手法よりも優れている。
https://buoyancy99.github.io/unsup-3d-keypoints/
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D Implicit Transporter for Temporally Consistent Keypoint Discovery [45.152790256675964]
キーポイントに基づく表現は、様々な視覚的およびロボット的タスクにおいて有利であることが証明されている。
トランスポーター法は、2次元データに対して導入され、ソースフレームからターゲットフレームを再構成し、空間情報と時間情報の両方を組み込む。
本稿では,ハイブリッド3次元表現,クロスアテンション,暗黙の再構築を活用したトランスポーターの最初の3次元バージョンを提案する。
論文 参考訳(メタデータ) (2023-09-10T17:59:48Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos [38.16427363571254]
本研究では,行動エージェントのマルチビュー映像から3次元の自己教師付きキーポイント発見を行う手法を提案する。
提案手法であるBKinD-3Dでは,エンコーダデコーダアーキテクチャと3次元熱マップを用いて,複数のビューの差分を再構成する。
論文 参考訳(メタデータ) (2022-12-14T18:34:29Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge
Engine [56.09471066808409]
本稿では,3次元領域における画像に対応するセマンティクスを予測し,それを2次元画像に投影してピクセルレベルの理解を実現する手法を提案する。
16のカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含むKeypointNetと呼ばれる大規模キーポイント知識エンジンを構築した。
論文 参考訳(メタデータ) (2021-11-21T13:25:20Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。