論文の概要: Autoregressive Sequence Modeling for 3D Medical Image Representation
- arxiv url: http://arxiv.org/abs/2409.08691v1
- Date: Fri, 13 Sep 2024 10:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:58:47.435412
- Title: Autoregressive Sequence Modeling for 3D Medical Image Representation
- Title(参考訳): 3次元医用画像表現のための自己回帰シーケンスモデリング
- Authors: Siwen Wang, Churan Wang, Fei Gao, Lixian Su, Fandong Zhang, Yizhou Wang, Yizhou Yu,
- Abstract要約: 本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
- 参考スコア(独自算出の注目度): 48.706230961589924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three-dimensional (3D) medical images, such as Computed Tomography (CT) and Magnetic Resonance Imaging (MRI), are essential for clinical applications. However, the need for diverse and comprehensive representations is particularly pronounced when considering the variability across different organs, diagnostic tasks, and imaging modalities. How to effectively interpret the intricate contextual information and extract meaningful insights from these images remains an open challenge to the community. While current self-supervised learning methods have shown potential, they often consider an image as a whole thereby overlooking the extensive, complex relationships among local regions from one or multiple images. In this work, we introduce a pioneering method for learning 3D medical image representations through an autoregressive pre-training framework. Our approach sequences various 3D medical images based on spatial, contrast, and semantic correlations, treating them as interconnected visual tokens within a token sequence. By employing an autoregressive sequence modeling task, we predict the next visual token in the sequence, which allows our model to deeply understand and integrate the contextual information inherent in 3D medical images. Additionally, we implement a random startup strategy to avoid overestimating token relationships and to enhance the robustness of learning. The effectiveness of our approach is demonstrated by the superior performance over others on nine downstream tasks in public datasets.
- Abstract(参考訳): CT(CT)やMRI(MRI)などの3次元医用画像は臨床応用に不可欠である。
しかし、様々な臓器の多様性、診断タスク、画像モダリティを考慮すると、多様で包括的な表現の必要性は特に顕著である。
複雑な文脈情報を効果的に解釈し、これらの画像から意味のある洞察を抽出する方法は、コミュニティにとってオープンな課題である。
現在の自己教師型学習手法は潜在的な可能性を示しているが、画像全体を1つまたは複数の画像から局所領域間の広範な複雑な関係を見越すことがしばしばある。
本研究では, 自己回帰事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
提案手法は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像を解析し,トークンシーケンス内の相互接続された視覚トークンとして扱う。
自己回帰的シーケンスモデリングタスクを用いることで、シーケンス内の次の視覚トークンを予測し、3次元医用画像に固有のコンテキスト情報を深く理解し、統合することができる。
さらに,トークン関係の過大評価を回避し,学習の堅牢性を高めるために,ランダムなスタートアップ戦略を実装した。
提案手法の有効性は,公開データセットにおける9つの下流タスクにおいて,他よりも優れた性能を示す。
関連論文リスト
- QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - Graph Self-Supervised Learning for Endoscopic Image Matching [1.8275108630751844]
鍵点間の空間関係をモデル化するために,局所的な視覚的外観を捉える畳み込みニューラルネットワークと注目に基づくグラフニューラルネットワークを組み合わせた,新たな自己教師型アプローチを提案する。
我々のアプローチはラベル付きデータを必要とせず、完全に自己管理されたスキームで訓練されている。
提案手法は,最先端の手工法と深層学習法より優れ,精度(1)とマッチングスコア(99.3%)で優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:53:41Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Imbalance-Aware Self-Supervised Learning for 3D Radiomic Representations [5.750111443935516]
3d siameseネットワークを用いて,自己教師あり方式で画像表現の学習方法を示す。
MRIおよびCT撮影法を用いた脳腫瘍分類と肺癌のステージング作業において有意な改善がみられた。
論文 参考訳(メタデータ) (2021-03-06T18:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。