論文の概要: ToNNO: Tomographic Reconstruction of a Neural Network's Output for Weakly Supervised Segmentation of 3D Medical Images
- arxiv url: http://arxiv.org/abs/2404.13103v1
- Date: Fri, 19 Apr 2024 11:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:28:09.477848
- Title: ToNNO: Tomographic Reconstruction of a Neural Network's Output for Weakly Supervised Segmentation of 3D Medical Images
- Title(参考訳): ToNNO:3次元医用画像の微視的分割のためのニューラルネットワーク出力のトモグラフィー再構成
- Authors: Marius Schmidt-Mengin, Alexis Benichoux, Shibeshih Belachew, Nikos Komodakis, Nikos Paragios,
- Abstract要約: ToNNOは、ニューラルネットワークの出力のトモグラフィー再構成に基づいている。
入力された3Dボリュームから異なる角度のスライスを抽出し、これらのスライスを2Dエンコーダに供給し、エンコーダの予測の3Dヒートマップを再構成するために逆ラドン変換を適用する。
本研究では、2Dエンコーダを訓練し、関心領域を含むスライスに対して高い値を出力することにより、医用画像セグメンテーションの弱制御に適用する。
- 参考スコア(独自算出の注目度): 6.035125735474387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Annotating lots of 3D medical images for training segmentation models is time-consuming. The goal of weakly supervised semantic segmentation is to train segmentation models without using any ground truth segmentation masks. Our work addresses the case where only image-level categorical labels, indicating the presence or absence of a particular region of interest (such as tumours or lesions), are available. Most existing methods rely on class activation mapping (CAM). We propose a novel approach, ToNNO, which is based on the Tomographic reconstruction of a Neural Network's Output. Our technique extracts stacks of slices with different angles from the input 3D volume, feeds these slices to a 2D encoder, and applies the inverse Radon transform in order to reconstruct a 3D heatmap of the encoder's predictions. This generic method allows to perform dense prediction tasks on 3D volumes using any 2D image encoder. We apply it to weakly supervised medical image segmentation by training the 2D encoder to output high values for slices containing the regions of interest. We test it on four large scale medical image datasets and outperform 2D CAM methods. We then extend ToNNO by combining tomographic reconstruction with CAM methods, proposing Averaged CAM and Tomographic CAM, which obtain even better results.
- Abstract(参考訳): セグメンテーションモデルのトレーニングのために多くの3D医療画像に注釈をつけるのは時間を要する。
弱教師付きセマンティックセグメンテーションの目標は、基底真理セグメンテーションマスクを使わずにセグメンテーションモデルを訓練することである。
本研究は,特定の領域(腫瘍や病変など)の存在の有無を示す画像レベルの分類ラベルのみが利用可能である場合に対処する。
既存のほとんどのメソッドはクラスアクティベーションマッピング(CAM)に依存している。
本稿では,ニューラルネットワークの出力のトモグラフィ再構成に基づく新しいアプローチToNNOを提案する。
本手法は,入力された3次元体積から異なる角度のスライスを抽出し,これらのスライスを2次元エンコーダに供給し,逆ラドン変換を適用してエンコーダの予測の3次元ヒートマップを再構成する。
この汎用的な手法は、任意の2次元画像エンコーダを用いて3次元ボリュームに対して密度の高い予測タスクを実行することができる。
本研究では、2Dエンコーダを訓練し、関心領域を含むスライスに対して高い値を出力することにより、医用画像セグメンテーションの弱制御に適用する。
4つの大規模医用画像データセットと2D CAM法を比較検討した。
CAM法とトモグラフィ再構成を併用してToNNOを拡張し, 平均CAMとトモグラフィCAMを提案し, より優れた結果を得た。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - MProtoNet: A Case-Based Interpretable Model for Brain Tumor
Classification with 3D Multi-parametric Magnetic Resonance Imaging [0.6445605125467573]
本稿では,3D Multi-parametric magnetic resonance imaging (mpMRI)データを用いて,ProtoPNetを脳腫瘍分類に拡張する最初の医用プロトタイプネットワーク(MProtoNet)を提案する。
MProtoNetは、正確性とローカライゼーションコヒーレンスの両方の解釈可能性指標の統計的に有意な改善を実現している。
論文 参考訳(メタデータ) (2023-04-13T04:39:21Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Decomposing 3D Neuroimaging into 2+1D Processing for Schizophrenia
Recognition [25.80846093248797]
我々は2+1Dフレームワークで3Dデータを処理し、巨大なImageNetデータセット上に事前トレーニングされた強力な2D畳み込みニューラルネットワーク(CNN)ネットワークを利用して3Dニューロイメージング認識を実現することを提案する。
特に3次元磁気共鳴イメージング(MRI)の計測値は、隣接するボクセル位置に応じて2次元スライスに分解される。
グローバルプーリングは、アクティベーションパターンが機能マップ上にわずかに分散されているため、冗長な情報を除去するために適用される。
2次元CNNモデルにより処理されていない3次元の文脈情報を集約するために,チャネルワイドおよびスライスワイズ畳み込みを提案する。
論文 参考訳(メタデータ) (2022-11-21T15:22:59Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。