論文の概要: Video Pretraining Advances 3D Deep Learning on Chest CT Tasks
- arxiv url: http://arxiv.org/abs/2304.00546v1
- Date: Sun, 2 Apr 2023 14:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:31:19.706174
- Title: Video Pretraining Advances 3D Deep Learning on Chest CT Tasks
- Title(参考訳): 胸部CTタスクにおける3次元深層学習の進歩
- Authors: Alexander Ke, Shih-Cheng Huang, Chloe P O'Connell, Michal Klimont,
Serena Yeung, Pranav Rajpurkar
- Abstract要約: 大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
- 参考スコア(独自算出の注目度): 63.879848037679224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining on large natural image classification datasets such as ImageNet
has aided model development on data-scarce 2D medical tasks. 3D medical tasks
often have much less data than 2D medical tasks, prompting practitioners to
rely on pretrained 2D models to featurize slices. However, these 2D models have
been surpassed by 3D models on 3D computer vision benchmarks since they do not
natively leverage cross-sectional or temporal information. In this study, we
explore whether natural video pretraining for 3D models can enable higher
performance on smaller datasets for 3D medical tasks. We demonstrate video
pretraining improves the average performance of seven 3D models on two chest CT
datasets, regardless of finetuning dataset size, and that video pretraining
allows 3D models to outperform 2D baselines. Lastly, we observe that
pretraining on the large-scale out-of-domain Kinetics dataset improves
performance more than pretraining on a typically-sized in-domain CT dataset.
Our results show consistent benefits of video pretraining across a wide array
of architectures, tasks, and training dataset sizes, supporting a shift from
small-scale in-domain pretraining to large-scale out-of-domain pretraining for
3D medical tasks. Our code is available at:
https://github.com/rajpurkarlab/chest-ct-pretraining
- Abstract(参考訳): ImageNetのような大規模な自然画像分類データセットの事前トレーニングは、データスカース2D医療タスクのモデル開発を支援する。
3D医療タスクは、しばしば2D医療タスクよりもはるかに少ないデータを持ち、訓練済みの2Dモデルに頼ってスライスを破滅させる。
しかし、これらの2Dモデルは断面情報や時間情報をネイティブに活用していないため、3Dコンピュータビジョンベンチマークの3Dモデルに勝っている。
本研究では,3Dモデルに対する自然ビデオ事前トレーニングによって,より小さなデータセットでの3D医療タスクの性能向上が期待できるかどうかを考察する。
ビデオプリトレーニングは,2つの胸部ctデータセットにおける7つの3dモデルの平均性能を,データセットサイズを微調整することなく向上させる。
最後に、大規模領域外キネティクスデータセットの事前トレーニングは、通常サイズのドメイン内CTデータセットの事前トレーニングよりもパフォーマンスを向上させることを観察する。
以上の結果から,多様なアーキテクチャ,タスク,データセットサイズにわたるビデオプリトレーニングの一貫したメリットを示し,3次元医療タスクの小規模インドメインプリトレーニングから大規模アウト・オブ・ドメインプリトレーニングへの移行をサポートする。
私たちのコードは、https://github.com/rajpurkarlab/chest-ct-pretrainingで利用可能です。
関連論文リスト
- Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。