論文の概要: Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via
Training-free Networks
- arxiv url: http://arxiv.org/abs/2308.12961v1
- Date: Thu, 24 Aug 2023 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:43:57.267171
- Title: Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via
Training-free Networks
- Title(参考訳): less is more: トレーニングフリーネットワークによる効率的な3dセマンティクスセグメンテーションに向けて
- Authors: Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Hao
Dong, Peng Gao
- Abstract要約: 3Dのスプリットショットセグメンテーション手法はまず、見知らぬクラスのモデルの事前トレーニングを行い、見つからないクラスのモデルのパフォーマンスを評価する。
トレーニング不要なFew-shot 3D netwrok,3D,さらにトレーニングベースの変種である3DTを提案する。
実験では、S3DISとScanNetで従来の最先端手法を+6.93%、+17.96%のmIoUで改善し、トレーニング時間を-90%短縮した。
- 参考スコア(独自算出の注目度): 34.758951766323136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce the reliance on large-scale datasets, recent works in 3D
segmentation resort to few-shot learning. Current 3D few-shot semantic
segmentation methods first pre-train the models on `seen' classes, and then
evaluate their generalization performance on `unseen' classes. However, the
prior pre-training stage not only introduces excessive time overhead, but also
incurs a significant domain gap on `unseen' classes. To tackle these issues, we
propose an efficient Training-free Few-shot 3D Segmentation netwrok, TFS3D, and
a further training-based variant, TFS3D-T. Without any learnable parameters,
TFS3D extracts dense representations by trigonometric positional encodings, and
achieves comparable performance to previous training-based methods. Due to the
elimination of pre-training, TFS3D can alleviate the domain gap issue and save
a substantial amount of time. Building upon TFS3D, TFS3D-T only requires to
train a lightweight query-support transferring attention (QUEST), which
enhances the interaction between the few-shot query and support data.
Experiments demonstrate TFS3D-T improves previous state-of-the-art methods by
+6.93% and +17.96% mIoU respectively on S3DIS and ScanNet, while reducing the
training time by -90%, indicating superior effectiveness and efficiency.
- Abstract(参考訳): 大規模なデータセットへの依存を減らすため、3Dセグメンテーションにおける最近の研究は、数ショットの学習に頼っている。
現在の3dの少数ショットセマンティクスセグメンテーションメソッドは、まず‘seen’クラスでモデルを事前トレーニングし、次に‘unseen’クラスの一般化性能を評価する。
しかしながら、事前トレーニングステージは、過剰な時間オーバーヘッドをもたらすだけでなく、‘unseen’クラスに大きなドメイン間ギャップも生んでいる。
これらの課題に対処するため,トレーニング不要なFew-shot 3D Segmentation netwrok,TFS3D,さらにトレーニングベースであるTFS3D-Tを提案する。
学習可能なパラメータなしでは、tfs3dは三角位置符号化による密表現を抽出し、以前のトレーニングベースの方法と同等の性能を達成する。
事前トレーニングの廃止により、tfs3dはドメイン間ギャップの問題を緩和し、かなりの時間を節約できる。
TFS3D上に構築されているTFS3D-Tは、軽量なクエリサポート転送注意(QUEST)のトレーニングのみを必要とする。
TFS3D-T は S3DIS と ScanNet のそれぞれに +6.93% と +17.96% mIoU を改良し、トレーニング時間を -90% 削減した。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders [32.85484320025852]
本研究では,画像から持ち上げた実データと擬似3Dデータを利用した自己教師付き事前学習フレームワークを,大深度推定モデルにより提案する。
提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
論文 参考訳(メタデータ) (2024-08-19T13:59:53Z) - No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation [40.0506169981233]
我々は,小ショット3D,Seg-NN,およびそのパラメトリック変種であるSeg-PNの非パラメトリックネットワークを提案する。
Seg-PNは手作りフィルタで高密度表現を抽出し、既存のパラメトリックモデルに匹敵する性能を達成する。
実験により、Seg-PNは、S3DISデータセットとScanNetデータセットにおいて、従来の最先端手法を+4.19%、+7.71% mIoUで上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T12:09:36Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - Language-Grounded Indoor 3D Semantic Segmentation in the Wild [33.40572976383402]
我々は,200種類のカテゴリを持つScanNetデータに対する新しい拡張ベンチマークを用いて,3次元セマンティックセマンティックセマンティックセグメンテーションのためのより大きな語彙について検討した。
本稿では,言語による事前学習手法を提案し,学習した3次元特徴が事前学習されたテキスト埋め込みに近接することを奨励する。
提案手法は,提案したベンチマークにおいて,3次元セマンティックセマンティックセグメンテーションのための最先端の3D事前トレーニングを一貫して上回っている。
論文 参考訳(メタデータ) (2022-04-16T09:17:40Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。