論文の概要: VIViT: Variable-Input Vision Transformer Framework for 3D MR Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.08693v1
- Date: Tue, 13 May 2025 15:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.65748
- Title: VIViT: Variable-Input Vision Transformer Framework for 3D MR Image Segmentation
- Title(参考訳): VIViT:3次元MR画像セグメンテーションのための可変入力型視覚変換器フレームワーク
- Authors: Badhan Kumar Das, Ajay Singh, Gengyan Zhao, Han Liu, Thomas J. Re, Dorin Comaniciu, Eli Gibson, Andreas Maier,
- Abstract要約: 自己教師型事前学習と分節微調整のためのトランスフォーマーベースのフレームワークである可変インプット ViT (VIViT) を提案する。
本手法は脳梗塞と脳腫瘍のセグメンテーションにおいて,Diceスコア0.624, 0.883で, 現在のCNNおよびViTモデルより優れていた。
- 参考スコア(独自算出の注目度): 8.634647333205375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pretrain techniques have been widely used to improve the downstream tasks' performance. However, real-world magnetic resonance (MR) studies usually consist of different sets of contrasts due to different acquisition protocols, which poses challenges for the current deep learning methods on large-scale pretrain and different downstream tasks with different input requirements, since these methods typically require a fixed set of input modalities or, contrasts. To address this challenge, we propose variable-input ViT (VIViT), a transformer-based framework designed for self-supervised pretraining and segmentation finetuning for variable contrasts in each study. With this ability, our approach can maximize the data availability in pretrain, and can transfer the learned knowledge from pretrain to downstream tasks despite variations in input requirements. We validate our method on brain infarct and brain tumor segmentation, where our method outperforms current CNN and ViT-based models with a mean Dice score of 0.624 and 0.883 respectively. These results highlight the efficacy of our design for better adaptability and performance on tasks with real-world heterogeneous MR data.
- Abstract(参考訳): 自己監督型プレトレイン技術は下流タスクのパフォーマンス向上に広く用いられている。
しかし、実世界の磁気共鳴(MR)研究は通常、異なる取得プロトコルのために異なるコントラストのセットで構成されており、これは大規模な事前訓練と異なるダウンストリームタスクにおける現在のディープラーニング手法の課題を提起する。
この課題に対処するために、各研究における可変コントラストに対する自己教師付き事前学習と分節微調整のためのトランスフォーマーベースのフレームワークである可変入力ViT (VIViT) を提案する。
この能力により,本手法は事前学習におけるデータの可用性を最大化し,学習した知識を入力要求のばらつきにもかかわらず,事前学習から下流タスクに転送することができる。
本手法は脳梗塞と脳腫瘍のセグメンテーションにおいて,Diceスコア0.624, 0.883で, 現在のCNNおよびViTモデルより優れていた。
これらの結果は,実世界の異種MRデータを用いたタスクに対する適応性と性能向上のための設計の有効性を強調した。
関連論文リスト
- AdaViT: Adaptive Vision Transformer for Flexible Pretrain and Finetune with Variable 3D Medical Image Modalities [9.006543373916314]
本稿では,AdaViT(Adaptive Vision Transformer)フレームワークを提案する。
このアーキテクチャは、教師付き事前訓練されたモデルを、異なる入力モダリティ/コントラストセットを持つ新しいデータセットに効果的に転送することを示した。
自己教師付きプレトレインでは,プレトレインデータの最大化と,入力モダリティの可変セットによる様々な下流タスクへの転送を容易にする。
論文 参考訳(メタデータ) (2025-04-04T16:57:06Z) - Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Amortised Invariance Learning for Contrastive Self-Supervision [11.042648980854485]
対照的な自己監督のために, 償却不変学習の概念を導入する。
我々のアモーテッド機能は、異なる不変条件で様々な下流タスクを学習する信頼性の高い方法を提供することを示す。
これは、汎用表現学習の分野での新しい地平を開くエキサイティングな視点を提供する。
論文 参考訳(メタデータ) (2023-02-24T16:15:11Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。