論文の概要: MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2511.12373v1
- Date: Sat, 15 Nov 2025 22:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.999655
- Title: MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging
- Title(参考訳): MTMed3D:3次元医用イメージングのためのマルチタスクトランスフォーマーモデル
- Authors: Fan Li, Arun Iyengar, Lanyu Xu,
- Abstract要約: 本稿では,MTMed3Dを提案する。MTMed3Dは,単一タスクモデルの制約に対処するための,エンドツーエンドのマルチタスクトランスフォーマーモデルである。
我々のモデルは、共有エンコーダとしてTransformerを使用して、CNNベースのタスク固有デコーダに続き、マルチスケール機能を生成する。
- 参考スコア(独自算出の注目度): 5.169719124205838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of medical imaging, AI-assisted techniques such as object detection, segmentation, and classification are widely employed to alleviate the workload of physicians and doctors. However, single-task models are predominantly used, overlooking the shared information across tasks. This oversight leads to inefficiencies in real-life applications. In this work, we propose MTMed3D, a novel end-to-end Multi-task Transformer-based model to address the limitations of single-task models by jointly performing 3D detection, segmentation, and classification in medical imaging. Our model uses a Transformer as the shared encoder to generate multi-scale features, followed by CNN-based task-specific decoders. The proposed framework was evaluated on the BraTS 2018 and 2019 datasets, achieving promising results across all three tasks, especially in detection, where our method achieves better results than prior works. Additionally, we compare our multi-task model with equivalent single-task variants trained separately. Our multi-task model significantly reduces computational costs and achieves faster inference speed while maintaining comparable performance to the single-task models, highlighting its efficiency advantage. To the best of our knowledge, this is the first work to leverage Transformers for multi-task learning that simultaneously covers detection, segmentation, and classification tasks in 3D medical imaging, presenting its potential to enhance diagnostic processes. The code is available at https://github.com/fanlimua/MTMed3D.git.
- Abstract(参考訳): 医用画像の分野では、物体検出、セグメンテーション、分類などのAI支援技術が、医師や医師の作業負荷を軽減するために広く用いられている。
しかし、シングルタスクモデルは主に使われ、タスク間で共有される情報を見渡せる。
この監視は、現実のアプリケーションにおいて非効率な結果をもたらす。
本研究では,MTMed3Dを提案する。MTMed3Dは,医療画像における3次元検出,セグメンテーション,分類を共同で行うことで,単一タスクモデルの限界に対処する,新しいエンドツーエンドマルチタスクトランスフォーマーモデルである。
我々のモデルは、共有エンコーダとしてTransformerを使用して、CNNベースのタスク固有デコーダに続き、マルチスケール機能を生成する。
提案したフレームワークはBraTS 2018と2019のデータセットで評価され、3つのタスクすべてで有望な結果が得られた。
さらに,マルチタスクモデルと等価な単一タスクモデルの比較を行った。
マルチタスクモデルでは計算コストを大幅に削減し,シングルタスクモデルに匹敵する性能を維持しつつ,高速な推論速度を実現する。
我々の知る限りでは、3D医療画像における検出、セグメンテーション、分類タスクを同時にカバーし、診断プロセスを強化する可能性を示すマルチタスク学習にTransformerを活用する最初の試みである。
コードはhttps://github.com/fanlimua/MTMed3D.gitで公開されている。
関連論文リスト
- Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - MECFormer: Multi-task Whole Slide Image Classification with Expert Consultation Network [2.6954348706500766]
全スライド画像(WSI)分類は、診療所や病院におけるがん診断において重要な問題である。
この問題のために設計された従来のMILベースのモデルは、特定の臓器の個々のタスクでのみ評価されている。
本稿では,複数のタスクを1つのモデル内で処理するための生成トランスフォーマーモデルMECFormerを提案する。
論文 参考訳(メタデータ) (2024-10-06T14:56:23Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [46.44049019428938]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。