論文の概要: 3D-JEPA: A Joint Embedding Predictive Architecture for 3D Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2409.15803v1
- Date: Tue, 24 Sep 2024 06:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:41:18.868039
- Title: 3D-JEPA: A Joint Embedding Predictive Architecture for 3D Self-Supervised Representation Learning
- Title(参考訳): 3D-JEPA:3次元自己監督型表現学習のための予測アーキテクチャの結合
- Authors: Naiwen Hu, Haozhe Cheng, Yifan Xie, Shiqi Li, Jihua Zhu,
- Abstract要約: 3D-JEPAは、新しい3D SSRLフレームワークである。
本稿では,十分な情報的コンテキストブロックといくつかの代表的ターゲットブロックを生成するマルチブロックサンプリング戦略を提案する。
対象ブロックの再構成を強化するためのコンテキスト認識デコーダを提案する。
全体として、3D-JEPAは、エンコーダとコンテキスト対応デコーダアーキテクチャを用いて、コンテキストブロックからターゲットブロックの表現を予測する。
- 参考スコア(独自算出の注目度): 12.688244351693847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Invariance-based and generative methods have shown a conspicuous performance for 3D self-supervised representation learning (SSRL). However, the former relies on hand-crafted data augmentations that introduce bias not universally applicable to all downstream tasks, and the latter indiscriminately reconstructs masked regions, resulting in irrelevant details being saved in the representation space. To solve the problem above, we introduce 3D-JEPA, a novel non-generative 3D SSRL framework. Specifically, we propose a multi-block sampling strategy that produces a sufficiently informative context block and several representative target blocks. We present the context-aware decoder to enhance the reconstruction of the target blocks. Concretely, the context information is fed to the decoder continuously, facilitating the encoder in learning semantic modeling rather than memorizing the context information related to target blocks. Overall, 3D-JEPA predicts the representation of target blocks from a context block using the encoder and context-aware decoder architecture. Various downstream tasks on different datasets demonstrate 3D-JEPA's effectiveness and efficiency, achieving higher accuracy with fewer pretraining epochs, e.g., 88.65% accuracy on PB_T50_RS with 150 pretraining epochs.
- Abstract(参考訳): Invariance-based and generative method has showed a conspicuous performance for 3D self-supervised representation learning (SSRL)。
しかしながら、前者は、すべての下流タスクに普遍的に適用されないバイアスをもたらす手作りのデータ拡張に依存し、後者はマスクされた領域を無差別に再構成し、表現空間に保存される無関係な詳細をもたらす。
上記の問題を解決するために,新しい3次元SSRLフレームワークである3D-JEPAを導入する。
具体的には、十分な情報的コンテキストブロックといくつかの代表的ターゲットブロックを生成するマルチブロックサンプリング戦略を提案する。
対象ブロックの再構成を強化するためのコンテキスト認識デコーダを提案する。
具体的には、コンテキスト情報をデコーダに連続的に供給することにより、ターゲットブロックに関連するコンテキスト情報を記憶するのではなく、セマンティックモデリングを学習する上で、エンコーダを容易にする。
全体として、3D-JEPAは、エンコーダとコンテキスト対応デコーダアーキテクチャを用いて、コンテキストブロックからターゲットブロックの表現を予測する。
異なるデータセット上の様々な下流タスクは、3D-JEPAの有効性と効率を示し、150の事前学習エポックを持つPB_T50_RSにおいて、より少ない事前学習エポック、例えば88.65%の精度で高い精度を達成する。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Improving Robustness to Model Inversion Attacks via Sparse Coding Architectures [4.962316236417777]
最近のモデル反転攻撃アルゴリズムでは、ニューラルネットワークのプライベートかつ潜在的に敏感なトレーニングデータを繰り返しクエリすることで、敵が再構築することができる。
我々は,このタイプの攻撃に対して優れたロバスト性を得るために,スパースコーディング層を利用する新しいネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-03-21T18:26:23Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction [10.87136340580404]
視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術である。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - SHINE-Mapping: Large-Scale 3D Mapping Using Sparse Hierarchical Implicit
Neural Representations [37.733802382489515]
本稿では, 3次元LiDAR計測を用いて, 暗示表現を用いた大規模3次元再構成を実現する際の課題について述べる。
我々はオクツリーに基づく階層構造を通じて暗黙的な特徴を学習し、保存する。
我々の3D再構成は、現在の最先端3Dマッピング法よりも正確で、完全で、メモリ効率が高いことを示す。
論文 参考訳(メタデータ) (2022-10-05T14:38:49Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point
Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。
本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-10T09:55:19Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。