論文の概要: MSFormer: A Skeleton-multiview Fusion Method For Tooth Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2310.14489v1
- Date: Mon, 23 Oct 2023 01:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:21:41.041496
- Title: MSFormer: A Skeleton-multiview Fusion Method For Tooth Instance
Segmentation
- Title(参考訳): msformer : 歯列分割のためのスケルトン・マルチビュー融合法
- Authors: Yuan Li, Huan Liu, Yubo Tao, Xiangyang He, Haifeng Li, Xiaohu Guo, Hai
Lin
- Abstract要約: 本稿では,限られたデータを用いた新しい歯のセグメンテーション法であるMSFormerを紹介する。
MSFormerは2つの軽量モジュールを既存のマルチビューベースモデルに組み込んでいる。
実験によると、MSFormerは最先端のパフォーマンスを実現しており、たった100のトレーニングメッシュしか必要としない。
- 参考スコア(独自算出の注目度): 21.38426537318511
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, deep learning-based tooth segmentation methods have been limited by
the expensive and time-consuming processes of data collection and labeling.
Achieving high-precision segmentation with limited datasets is critical. A
viable solution to this entails fine-tuning pre-trained multiview-based models,
thereby enhancing performance with limited data. However, relying solely on
two-dimensional (2D) images for three-dimensional (3D) tooth segmentation can
produce suboptimal outcomes because of occlusion and deformation, i.e.,
incomplete and distorted shape perception. To improve this fine-tuning-based
solution, this paper advocates 2D-3D joint perception. The fundamental
challenge in employing 2D-3D joint perception with limited data is that the
3D-related inputs and modules must follow a lightweight policy instead of using
huge 3D data and parameter-rich modules that require extensive training data.
Following this lightweight policy, this paper selects skeletons as the 3D
inputs and introduces MSFormer, a novel method for tooth segmentation. MSFormer
incorporates two lightweight modules into existing multiview-based models: a
3D-skeleton perception module to extract 3D perception from skeletons and a
skeleton-image contrastive learning module to obtain the 2D-3D joint perception
by fusing both multiview and skeleton perceptions. The experimental results
reveal that MSFormer paired with large pre-trained multiview models achieves
state-of-the-art performance, requiring only 100 training meshes. Furthermore,
the segmentation accuracy is improved by 2.4%-5.5% with the increasing volume
of training data.
- Abstract(参考訳): 近年,深層学習に基づく歯のセグメンテーション法は,データ収集とラベル付けの費用と時間のかかるプロセスによって制限されている。
限られたデータセットで高精度セグメンテーションを実現することが重要である。
これに対する現実的な解決策は、事前学習されたマルチビューベースのモデルを微調整することで、限られたデータでパフォーマンスを向上させることだ。
しかし、3次元3次元歯のセグメンテーションのための2次元(2次元)画像のみを頼りにすると、咬合と変形、すなわち不完全かつ歪んだ形状知覚のために、最適以下の結果が得られる。
この微調整に基づく解法を改善するため,本稿では2d-3d関節知覚を提唱する。
限られたデータで2D-3Dの関節知覚を利用する際の根本的な課題は、3D関連のインプットとモジュールが、広範なトレーニングデータを必要とする巨大な3Dデータやパラメータリッチモジュールを使用する代わりに、軽量なポリシーに従う必要があることである。
この軽量な方針に従い, 骨を3次元入力として選択し, 歯のセグメンテーションの新しい方法であるMSFormerを紹介する。
MSFormerは2つの軽量モジュールを既存のマルチビューベースモデルに組み込んでおり、スケルトンから3次元知覚を抽出する3D-スケルトン認識モジュールと、スケルトン画像のコントラスト学習モジュールを用いて、マルチビューとスケルトン知覚の両方を融合させて2D-3D関節知覚を得る。
実験結果から,MSFormerと大規模な事前学習型マルチビューモデルが組み合わさって,最先端性能を実現し,100のトレーニングメッシュしか必要としないことが明らかとなった。
さらに、トレーニングデータの量が増加すると、セグメンテーション精度が2.4%-5.5%向上する。
関連論文リスト
- Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。
私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文 参考訳(メタデータ) (2024-07-17T06:14:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Joint Self-Supervised Image-Volume Representation Learning with
Intra-Inter Contrastive Clustering [31.52291149830299]
自己教師付き学習は、ラベル付きデータから特徴表現を学習することで、ラベル付きトレーニングサンプルの欠如を克服することができる。
現在の医療分野におけるSSL技術のほとんどは、2D画像または3Dボリュームのために設計されている。
本研究では2次元および3次元データモダリティの教師なし共同学習のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T18:57:44Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。