論文の概要: 2.75D: Boosting Learning Efficiency and Capability by Representing 3D
Features in 2D
- arxiv url: http://arxiv.org/abs/2002.04251v2
- Date: Wed, 25 Nov 2020 19:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:41:39.248366
- Title: 2.75D: Boosting Learning Efficiency and Capability by Representing 3D
Features in 2D
- Title(参考訳): 2.75D:2次元特徴表現による学習効率と能力向上
- Authors: Ruisheng Su, Weiyi Xie, Tao Tan
- Abstract要約: 3次元畳み込みニューラルネットワーク(CNN)は、高次元入力を伴う多くのディープラーニングタスクにおいて、2次元CNNよりも優れた性能を示している。
3D CNNにトランスファーラーニングを適用することは、公開トレーニング済みの3Dネットワークがないために困難である。
本手法では, スパイラルスピン法により, 3次元画像の空間情報を単一の2次元ビューで捉えた。
- 参考スコア(独自算出の注目度): 4.285350801598744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical imaging, 3D convolutional neural networks (CNNs) have shown
superior performance to 2D CNN in numerous deep learning tasks with high
dimensional input, proving the added value of 3D spatial information in feature
representation. However, 3D CNN requires more training samples to converge, and
more computational resources and execution time for both training and
inference. Meanwhile, applying transfer learning on 3D CNN is challenging due
to a lack of publicly available pre-trained 3D networks. To tackle with these
issues, we propose a novel 2D strategical representation of volumetric data,
namely 2.75D approach. In our method, the spatial information of 3D images was
captured in a single 2D view by a spiral-spinning technique. Therefore, our CNN
is intrinsically a 2D network, which can fully leverage pre-trained 2D CNNs for
downstream vision problems. We evaluated the proposed method on LUNA16 nodule
detection challenge, by comparing the proposed 2.75D method with 2D, 2.5D, 3D
counterparts in the nodule false positive reduction. Results show that the
proposed method outperforms other counterparts when all methods were trained
from scratch. Such performance gain is more pronounced when introducing
transfer learning or when training data is limited. In addition, our method
achieves a substantial reduce in time consumption of training and inference
comparing with the 3D method. Our code will be publicly available.
- Abstract(参考訳): 医用画像では、3次元畳み込みニューラルネットワーク(CNN)は高次元入力を伴う多くの深層学習タスクにおいて2次元CNNよりも優れた性能を示し、特徴表現に3次元空間情報の付加価値を証明している。
しかし、3D CNNは、より多くのトレーニングサンプルを収束させ、トレーニングと推論の両方により多くの計算リソースと実行時間を必要とする。
一方、3D CNNにトランスファーラーニングを適用することは、公開のトレーニング済みの3Dネットワークがないために困難である。
そこで本稿では,ボリュームデータの2次元戦略的表現,すなわち2.75dアプローチを提案する。
本手法では, スパイラルスピン法により, 3次元画像の空間情報を単一の2次元ビューで捉えた。
そのため、我々のCNNは本質的に2Dネットワークであり、下流視覚問題に事前学習された2D CNNを完全に活用することができる。
提案した2.75d法と2d,2.5d,3d法を比較し,luna16結節検出課題の評価を行った。
その結果,提案手法は他の手法よりも優れていることがわかった。
このような性能向上は、転送学習の導入やトレーニングデータの制限時により顕著になる。
さらに,本手法は,3次元法と比較して,トレーニングと推論の時間消費を大幅に削減する。
私たちのコードは公開されます。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - Semantic Segmentation of Neuronal Bodies in Fluorescence Microscopy
Using a 2D+3D CNN Training Strategy with Sparsely Annotated Data [0.0]
二次元CNNはニューロンの局在において良い結果をもたらすが、不正確な表面再構成を引き起こす。
3D CNNは手動で大規模なアノテートデータを必要とするため、かなりの人的労力を要する。
スパース2Dアノテーションを用いたネイティブ3D CNNモデルのトレーニングのための2段階戦略を提案する。
論文 参考訳(メタデータ) (2020-08-31T18:01:02Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。