論文の概要: An OpenMind for 3D medical vision self-supervised learning
- arxiv url: http://arxiv.org/abs/2412.17041v2
- Date: Fri, 18 Apr 2025 13:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 15:46:21.306422
- Title: An OpenMind for 3D medical vision self-supervised learning
- Title(参考訳): 3次元医用ビジョン自己教師型学習のためのOpenMind
- Authors: Tassilo Wald, Constantin Ulrich, Jonathan Suprijadi, Sebastian Ziegler, Michal Nohel, Robin Peretzke, Gregor Köhler, Klaus H. Maier-Hein,
- Abstract要約: 我々は114kの3D脳MRIボリュームからなる公開事前学習データセットを公表した。
我々は、最新のCNNおよびTransformerアーキテクチャのための既存の3次元自己教師型学習手法をこのデータセット上でベンチマークする。
- 参考スコア(独自算出の注目度): 1.1223322894276315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of self-supervised learning (SSL) for 3D medical images lacks consistency and standardization. While many methods have been developed, it is impossible to identify the current state-of-the-art, due to i) varying and small pretraining datasets, ii) varying architectures, and iii) being evaluated on differing downstream datasets. In this paper, we bring clarity to this field and lay the foundation for further method advancements through three key contributions: We a) publish the largest publicly available pre-training dataset comprising 114k 3D brain MRI volumes, enabling all practitioners to pre-train on a large-scale dataset. We b) benchmark existing 3D self-supervised learning methods on this dataset for a state-of-the-art CNN and Transformer architecture, clarifying the state of 3D SSL pre-training. Among many findings, we show that pre-trained methods can exceed a strong from-scratch nnU-Net ResEnc-L baseline. Lastly, we c) publish the code of our pre-training and fine-tuning frameworks and provide the pre-trained models created during the benchmarking process to facilitate rapid adoption and reproduction.
- Abstract(参考訳): 3次元医用画像に対する自己教師あり学習(SSL)の分野は、一貫性と標準化に欠ける。
多くの手法が開発されているが、現在の最先端を識別することは不可能である。
一 変種小種事前訓練データセット
二 異なる建築、及び
三 異なる下流データセットに基づいて評価すること。
本稿では,この分野に明確さをもたらし,3つの重要な貢献を通じて,さらなる手法開発の基礎を築いた。
a) 114kの3D脳MRIボリュームからなる、公開可能な最大の事前トレーニングデータセットを公開することにより、すべての実践者が大規模なデータセットで事前トレーニングを行うことができる。
我が家
b) 最先端CNNおよびトランスフォーマーアーキテクチャのための既存の3D自己教師型学習手法をベンチマークし, 3D SSL事前トレーニングの状況を明らかにする。
以上の結果から, トレーニング済みの手法が nnU-Net ResEnc-L ベースラインを超過できることが示唆された。
最後に
c) 事前トレーニングおよび微調整のフレームワークのコードを公開し、ベンチマークプロセス中に作成された事前トレーニングされたモデルを提供し、迅速な採用と再現を容易にする。
関連論文リスト
- Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein [18.696258519327095]
本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。
提案手法は,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前訓練したCLIPを採用している。
これまでで最大の肺動脈ベインCTデータセットである局所的データセットを用いて,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2025-01-07T12:03:02Z) - Revisiting MAE pre-training for 3D medical image segmentation [0.08484806297945031]
Self-Supervised Learning (SSL)は、未使用の膨大な臨床データセットの可能性を解放するエキサイティングな機会を提供する。
SSLは自然言語処理やコンピュータビジョンといった分野に革命をもたらし、その3D医療画像コンピューティングへの採用は、3つの重要な落とし穴によって制限されてきた。
本稿では,現在最先端のnnU-Netフレームワーク内の残留U-Netアーキテクチャを用いて,39kの脳MRIボリュームとiiの大規模データセットを活用することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-30T15:42:59Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors [8.695342954247606]
アーキテクチャやトレーニング技術を含む,統一的でモダリティに依存しない手法が,さまざまな医療タスクでどのように機能するかをテストするベンチマークであるBenchMDを提示する。
その結果,統一的な学習手法がすべてのモダリティに対して高い性能を達成できないことが示され,ベンチマークに十分な改善の余地が残されている。
論文 参考訳(メタデータ) (2023-04-17T17:59:26Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - BYOLMed3D: Self-Supervised Representation Learning of Medical Videos
using Gradient Accumulation Assisted 3D BYOL Framework [0.0]
教師付き学習アルゴリズムは、堅牢な表現を学習するために、大量のバランスのとれたデータを必要とする。
自己教師付き学習アルゴリズムはデータの不均衡に対して堅牢であり、堅牢な表現を学習することができる。
我々は、勾配累積法を用いて3D BYOL自己教師モデルを構築し、通常、自己教師アルゴリズムで必要とされるバッチ内の多数のサンプルを扱う。
論文 参考訳(メタデータ) (2022-07-31T14:48:06Z) - Towards Open Set 3D Learning: A Benchmark on Object Point Clouds [17.145309633743747]
本論文は,オープンセット3次元学習に関する第1報である。
カテゴリのセマンティックシフトの観点から,難易度を増すような新しいテストベッドを導入する。
本稿では,最新のアプローチが3Dデータに有効であるかどうか,その理解のために,アウト・オブ・ディストリビューションとオープン・セット2D文献について検討する。
論文 参考訳(メタデータ) (2022-07-23T17:00:45Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Self Context and Shape Prior for Sensorless Freehand 3D Ultrasound
Reconstruction [61.62191904755521]
3DフリーハンドUSは、幅広い範囲とフリーフォームスキャンを提供することで、この問題に対処することを約束している。
既存のディープラーニングベースの手法は、スキルシーケンスの基本ケースのみに焦点を当てている。
複雑なスキルシーケンスを考慮したセンサレスフリーハンドUS再構成手法を提案する。
論文 参考訳(メタデータ) (2021-07-31T16:06:50Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。