Fugu-MT 論文翻訳(概要): P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders

論文の概要: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders

arxiv url: http://arxiv.org/abs/2408.10007v1
Date: Mon, 19 Aug 2024 13:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 16:03:38.469363
Title: P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders
Title（参考訳）: P3P: Pseudo-3Dによる3次元マスクオートエンコーダの事前学習
Authors: Xuechao Chen, Ying Chen, Jialin Li, Qiang Nie, Yong Liu, Qixing Huang, Yang Li,
Abstract要約: 本研究では,画像から持ち上げた実データと擬似3Dデータを利用した自己教師付き事前学習フレームワークを,大深度推定モデルにより提案する。提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
参考スコア（独自算出の注目度）: 32.85484320025852
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: 3D pre-training is crucial to 3D perception tasks. However, limited by the difficulties in collecting clean 3D data, 3D pre-training consistently faced data scaling challenges. Inspired by semi-supervised learning leveraging limited labeled data and a large amount of unlabeled data, in this work, we propose a novel self-supervised pre-training framework utilizing the real 3D data and the pseudo-3D data lifted from images by a large depth estimation model. Another challenge lies in the efficiency. Previous methods such as Point-BERT and Point-MAE, employ k nearest neighbors to embed 3D tokens, requiring quadratic time complexity. To efficiently pre-train on such a large amount of data, we propose a linear-time-complexity token embedding strategy and a training-efficient 2D reconstruction target. Our method achieves state-of-the-art performance in 3D classification and few-shot learning while maintaining high pre-training and downstream fine-tuning efficiency.
Abstract（参考訳）: 3D事前学習は3D知覚タスクに不可欠である。しかし、クリーンな3Dデータ収集の難しさにより、3D事前トレーニングは一貫してデータスケーリングの課題に直面した。本研究では,限定ラベル付きデータと大量のラベル付きデータを活用した半教師付き学習に触発され,実データと画像から持ち上げられた擬似3Dデータを利用した自己教師付き事前学習フレームワークを提案する。もうひとつの課題は効率性です。 Point-BERT(英語版)やPoint-MAE(英語版)のような以前の手法では、3Dトークンを埋め込むのに近接する k 個の隣人を雇っている。このような大量のデータを効率的に事前学習するために,線形時間・複雑トークン埋め込み戦略と,訓練効率のよい2次元再構成ターゲットを提案する。提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。

関連論文リスト

Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルであるセンサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文参考訳（メタデータ） (2025-04-19T02:51:24Z)
DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。 TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文参考訳（メタデータ） (2024-12-22T08:28:20Z)
Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文参考訳（メタデータ） (2024-09-12T14:54:31Z)
ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文参考訳（メタデータ） (2024-07-24T11:58:31Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。 KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2023-05-25T04:03:46Z)
Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。 3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文参考訳（メタデータ） (2023-04-02T14:46:58Z)
Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。 FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文参考訳（メタデータ） (2022-05-30T16:33:53Z)
Semi-supervised 3D shape segmentation with multilevel consistency and part substitution [21.075426681857024]
本稿では,ラベル付3次元形状とラベル付3次元データの量から3次元分割を効果的に学習するための半教師付き手法を提案する。ラベルのないデータに対して,3次元形状の摂動コピー間のネットワーク予測の整合性を確保するために,新しい多レベル整合性損失を提案する。ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。
論文参考訳（メタデータ） (2022-04-19T11:48:24Z)
Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文参考訳（メタデータ） (2022-03-16T09:14:44Z)
Advancing 3D Medical Image Analysis with Variable Dimension Transform based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。 4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文参考訳（メタデータ） (2022-01-05T03:11:21Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)
D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文参考訳（メタデータ） (2020-03-06T12:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。