Fugu-MT 論文翻訳(概要): Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein

論文の概要: Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein

arxiv url: http://arxiv.org/abs/2501.03722v1
Date: Tue, 07 Jan 2025 12:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.0291
Title: Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein
Title（参考訳）: 肺動脈・静脈の3次元分割のための自己適応型視覚言語モデル
Authors: Xiaotong Guo, Deqian Yang, Dan Wang, Haochen Zhao, Yuan Li, Zhilin Sui, Tao Zhou, Lijun Zhang, Yanda Meng,
Abstract要約: 本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。提案手法は,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前訓練したCLIPを採用している。これまでで最大の肺動脈ベインCTデータセットである局所的データセットを用いて,本手法を広範囲に検証した。
参考スコア（独自算出の注目度）: 18.696258519327095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate segmentation of pulmonary structures iscrucial in clinical diagnosis, disease study, and treatment planning. Significant progress has been made in deep learning-based segmentation techniques, but most require much labeled data for training. Consequently, developing precise segmentation methods that demand fewer labeled datasets is paramount in medical image analysis. The emergence of pre-trained vision-language foundation models, such as CLIP, recently opened the door for universal computer vision tasks. Exploiting the generalization ability of these pre-trained foundation models on downstream tasks, such as segmentation, leads to unexpected performance with a relatively small amount of labeled data. However, exploring these models for pulmonary artery-vein segmentation is still limited. This paper proposes a novel framework called Language-guided self-adaptive Cross-Attention Fusion Framework. Our method adopts pre-trained CLIP as a strong feature extractor for generating the segmentation of 3D CT scans, while adaptively aggregating the cross-modality of text and image representations. We propose a s pecially designed adapter module to fine-tune pre-trained CLIP with a self-adaptive learning strategy to effectively fuse the two modalities of embeddings. We extensively validate our method on a local dataset, which is the largest pulmonary artery-vein CT dataset to date and consists of 718 labeled data in total. The experiments show that our method outperformed other state-of-the-art methods by a large margin. Our data and code will be made publicly available upon acceptance.
Abstract（参考訳）: 肺構造物の正確なセグメンテーションは、臨床診断、疾患研究、治療計画において不可欠である。ディープラーニングベースのセグメンテーション技術では重要な進歩があったが、ほとんどはトレーニングのためにラベル付きデータを必要とする。したがって、ラベル付きデータセットの少ない正確なセグメンテーション手法の開発は、医用画像解析において最重要である。 CLIPのような事前訓練された視覚言語基盤モデルの出現は、最近、ユニバーサルコンピュータビジョンタスクの扉を開いた。セグメンテーションのような下流タスクにおけるこれらの事前訓練された基礎モデルの一般化能力の展開は、比較的少ないラベル付きデータで予期せぬパフォーマンスをもたらす。しかし,これらの肺動脈-静脈分節モデルの探索はいまだに限られている。本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。提案手法では,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前学習したCLIPを採用し,テキストと画像表現のクロスモダリティを適応的に集約する。組込みの2つのモダリティを効果的に融合させるために,自己適応型学習戦略を用いて,事前学習したCLIPを微調整する実装モジュールを提案する。肺動脈CTデータセットとしては過去最大であり,合計で718個のラベル付きデータからなる局所的データセットに対して,本手法を広範囲に検証した。実験により,本手法が他の最先端手法よりも高い性能を示した。私たちのデータとコードは、受け入れ次第公開されます。

関連論文リスト

PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。 X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文参考訳（メタデータ） (2025-03-06T17:28:48Z)
Medical Semantic Segmentation with Diffusion Pretrain [1.9415817267757087]
近年のディープラーニングの進歩は、多くのコンピュータビジョンタスクの成功にロバストな特徴表現の学習が不可欠であることを示している。本稿では,3次元医用画像データの複雑化に合わせて,解剖学的ガイダンスを持つ拡散モデルを用いた新しい事前学習戦略を提案する。拡散過程において3次元の普遍的な身体部分座標を予測しガイダンスを与えるモデルを用いる。
論文参考訳（メタデータ） (2025-01-31T16:25:49Z)
MEDPSeg: Hierarchical polymorphic multitask learning for the segmentation of ground-glass opacities, consolidation, and pulmonary structures on computed tomography [37.119000111386924]
MEDPSegは階層型多形マルチタスク学習(HPML)を通して異種胸部CTターゲットから学習する本稿では,GGOと統合セグメンテーションタスクの最先端性能を実現するPMLについて述べる。さらに、MEDPSegは肺発作、気道、肺動脈、肺病変の分節を同時に行う。
論文参考訳（メタデータ） (2023-12-04T21:46:39Z)
Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文参考訳（メタデータ） (2023-07-13T08:27:09Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Extraction of volumetric indices from echocardiography: which deep learning solution for clinical use? [6.144041824426555]
提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは日常的な臨床機器の基準を満たす最初の自動化ツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2023-05-03T09:38:52Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
CT-LungNet: A Deep Learning Framework for Precise Lung Tissue Segmentation in 3D Thoracic CT Scans [1.1014741301167645]
本稿では,3次元肺CT画像中の肺をディープネットワークと転写学習を用いて同定する完全自動手法を提案する。 VESSEL12とCRPFの2つの公開データセットとトレーニングとテストのために,LUNA16という1つの公開データセットを用いて定量的に評価した。
論文参考訳（メタデータ） (2022-12-28T17:37:08Z)
PCA: Semi-supervised Segmentation with Patch Confidence Adversarial Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。 PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文参考訳（メタデータ） (2022-07-24T07:45:47Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Improving Classification Model Performance on Chest X-Rays through Lung Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文参考訳（メタデータ） (2022-02-22T15:24:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。