論文の概要: Data Efficient 3D Learner via Knowledge Transferred from 2D Model
- arxiv url: http://arxiv.org/abs/2203.08479v2
- Date: Thu, 17 Mar 2022 05:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 11:58:32.722251
- Title: Data Efficient 3D Learner via Knowledge Transferred from 2D Model
- Title(参考訳): 2次元モデルからの知識伝達によるデータ有効3次元学習者
- Authors: Ping-Chung Yu, Cheng Sun, Min Sun
- Abstract要約: 我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 30.077342050473515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting and labeling the registered 3D point cloud is costly. As a result,
3D resources for training are typically limited in quantity compared to the 2D
images counterpart. In this work, we deal with the data scarcity challenge of
3D tasks by transferring knowledge from strong 2D models via RGB-D images.
Specifically, we utilize a strong and well-trained semantic segmentation model
for 2D images to augment RGB-D images with pseudo-label. The augmented dataset
can then be used to pre-train 3D models. Finally, by simply fine-tuning on a
few labeled 3D instances, our method already outperforms existing
state-of-the-art that is tailored for 3D label efficiency. We also show that
the results of mean-teacher and entropy minimization can be improved by our
pre-training, suggesting that the transferred knowledge is helpful in
semi-supervised setting. We verify the effectiveness of our approach on two
popular 3D models and three different tasks. On ScanNet official evaluation, we
establish new state-of-the-art semantic segmentation results on the
data-efficient track.
- Abstract(参考訳): 登録された3dポイントクラウドの収集とラベリングは費用がかかる。
結果として、トレーニング用の3Dリソースは通常、2D画像と比較して量的に制限される。
本研究では,RGB-D画像を用いた強力な2次元モデルから知識を伝達することで,3次元タスクのデータ不足に対処する。
具体的には,2次元画像に対して,強いセマンティックセグメンテーションモデルを用いて,擬似ラベルを用いたRGB-D画像の増強を行う。
拡張データセットは、3dモデルの事前トレーニングに使用できる。
最後に,数個のラベル付き3Dインスタンスを微調整するだけで,既存の3Dラベルの効率向上に適した最先端技術よりも優れています。
また,前訓練により平均教師とエントロピー最小化の結果が改善できることを示し,半教師設定において伝達知識が有効であることを示唆した。
2つの一般的な3Dモデルと3つの異なるタスクに対するアプローチの有効性を検証する。
また,scannetのオフィシャル評価において,データ効率のよいトラック上で,新たな意味セグメンテーション結果を確立する。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-07-18T10:13:56Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。