論文の概要: 3D Implicit Transporter for Temporally Consistent Keypoint Discovery
- arxiv url: http://arxiv.org/abs/2309.05098v1
- Date: Sun, 10 Sep 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:37:38.389613
- Title: 3D Implicit Transporter for Temporally Consistent Keypoint Discovery
- Title(参考訳): キーポイント発見のための3次元インシシトトランスポーター
- Authors: Chengliang Zhong, Yuhang Zheng, Yupeng Zheng, Hao Zhao, Li Yi,
Xiaodong Mu, Ling Wang, Pengfei Li, Guyue Zhou, Chao Yang, Xinliang Zhang,
Jian Zhao
- Abstract要約: キーポイントに基づく表現は、様々な視覚的およびロボット的タスクにおいて有利であることが証明されている。
トランスポーター法は、2次元データに対して導入され、ソースフレームからターゲットフレームを再構成し、空間情報と時間情報の両方を組み込む。
本稿では,ハイブリッド3次元表現,クロスアテンション,暗黙の再構築を活用したトランスポーターの最初の3次元バージョンを提案する。
- 参考スコア(独自算出の注目度): 45.152790256675964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keypoint-based representation has proven advantageous in various visual and
robotic tasks. However, the existing 2D and 3D methods for detecting keypoints
mainly rely on geometric consistency to achieve spatial alignment, neglecting
temporal consistency. To address this issue, the Transporter method was
introduced for 2D data, which reconstructs the target frame from the source
frame to incorporate both spatial and temporal information. However, the direct
application of the Transporter to 3D point clouds is infeasible due to their
structural differences from 2D images. Thus, we propose the first 3D version of
the Transporter, which leverages hybrid 3D representation, cross attention, and
implicit reconstruction. We apply this new learning system on 3D articulated
objects and nonrigid animals (humans and rodents) and show that learned
keypoints are spatio-temporally consistent. Additionally, we propose a
closed-loop control strategy that utilizes the learned keypoints for 3D object
manipulation and demonstrate its superior performance. Codes are available at
https://github.com/zhongcl-thu/3D-Implicit-Transporter.
- Abstract(参考訳): keypointベースの表現は、様々な視覚やロボットのタスクで有利であることが証明されている。
しかし、既存の2次元および3次元のキーポイント検出法は、空間的アライメントを達成するために幾何学的一貫性を主に依存しており、時間的一貫性を無視している。
この問題に対処するため、2次元データに対してトランスポーター方式を導入し、対象フレームをソースフレームから再構成し、空間情報と時間情報の両方を取り込む。
しかし、トランスポーターの3d点雲への直接適用は、2d像との構造的な違いのため実現不可能である。
そこで我々は,ハイブリッドな3次元表現,クロスアテンション,暗黙の再構築を活用したトランスポーターの最初の3次元バージョンを提案する。
本研究では,この学習システムを3次元音節オブジェクトと非剛性動物(ヒトとネズミ)に適用し,学習キーポイントが時空間的に一貫したことを示す。
さらに,学習したキーポイントを3dオブジェクト操作に用いるクローズドループ制御戦略を提案し,その優れた性能を示す。
コードはhttps://github.com/zhongcl-thu/3D-Implicit-Transporterで入手できる。
関連論文リスト
- Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。
形状再構成は3次元キーポイント検出に有効か?
本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-03T17:58:43Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。