論文の概要: Unleashing the Potential of Vision-Language Pre-Training for 3D Zero-Shot Lesion Segmentation via Mask-Attribute Alignment
- arxiv url: http://arxiv.org/abs/2410.15744v1
- Date: Mon, 21 Oct 2024 08:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:33.476412
- Title: Unleashing the Potential of Vision-Language Pre-Training for 3D Zero-Shot Lesion Segmentation via Mask-Attribute Alignment
- Title(参考訳): Mask-Attributeアライメントによる3次元ゼロショット病変分割のためのビジョンランゲージ前訓練の可能性
- Authors: Yankai Jiang, Wenhui Lei, Xiaofan Zhang, Shaoting Zhang,
- Abstract要約: Maleniaは、新しいマルチスケールの病変レベルのマスク属性アライメントフレームワークである。
3次元ゼロショット病変セグメンテーション用に特別に設計されている。
- 参考スコア(独自算出の注目度): 11.726600999078755
- License:
- Abstract: Recent advancements in medical vision-language pre-training models have driven significant progress in zero-shot disease recognition. However, transferring image-level knowledge to pixel-level tasks, such as lesion segmentation in 3D CT scans, remains a critical challenge. Due to the complexity and variability of pathological visual characteristics, existing methods struggle to align fine-grained lesion features not encountered during training with disease-related textual representations. In this paper, we present Malenia, a novel multi-scale lesion-level mask-attribute alignment framework, specifically designed for 3D zero-shot lesion segmentation. Malenia improves the compatibility between mask representations and their associated elemental attributes, explicitly linking the visual features of unseen lesions with the extensible knowledge learned from previously seen ones. Furthermore, we design a Cross-Modal Knowledge Injection module to enhance both visual and textual features with mutually beneficial information, effectively guiding the generation of segmentation results. Comprehensive experiments across three datasets and 12 lesion categories validate the superior performance of Malenia. Codes will be publicly available.
- Abstract(参考訳): 医学的視覚言語による事前訓練モデルの最近の進歩は、ゼロショット病の認識に大きな進歩をもたらした。
しかし、画像レベルの知識を3次元CTスキャンにおける病変分割などのピクセルレベルのタスクに転送することは、依然として重要な課題である。
病理的な視覚特性の複雑さと多様性のため、既存の方法では、疾患関連テキスト表現のトレーニング中に遭遇しないきめ細かい病変の特徴の調整に苦慮している。
本稿では3次元ゼロショット病変セグメンテーションに特化して設計された新しいマルチスケール病変レベルマスク属性アライメントフレームワークであるMaleniaについて述べる。
マレニアは、マスク表現とその関連する要素属性の互換性を改善し、目に見えない病変の視覚的特徴と、以前に見られたものから学習した拡張可能な知識を明示的に関連付ける。
さらに,視覚的特徴とテキスト的特徴を相互に有益な情報で拡張するクロスモーダル・ナレッジ・インジェクション・モジュールを設計し,セグメンテーション結果の生成を効果的に導く。
3つのデータセットと12の病変カテゴリにわたる総合的な実験により、マレニアの優れたパフォーマンスが検証された。
コードは公開されます。
関連論文リスト
- Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAM Empowerment [41.398287899966995]
現在のAIによる皮膚画像診断は、皮膚がんの分類において皮膚科レベルのパフォーマンスを達成している。
皮膚病変診断のための新しいクロス・アテテーティブ・フュージョン・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-14T20:11:25Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image
Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。
しかし,このような手法を医用画像に直接適用することは依然として困難である。
適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T13:18:10Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Feature Representation Learning for Robust Retinal Disease Detection
from Optical Coherence Tomography Images [0.0]
眼科画像は、異なる網膜変性疾患を区別する自動化技術で失敗する、同一の外観の病理を含んでいる可能性がある。
本研究では,3つの学習ヘッドを持つ堅牢な疾患検出アーキテクチャを提案する。
2つのOCTデータセットによる実験結果から,提案モデルが既存の最先端モデルよりも精度,解釈可能性,堅牢性に優れ,網膜外網膜疾患の検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-06-24T07:59:36Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Incremental Cross-Domain Adaptation for Robust Retinopathy Screening via
Bayesian Deep Learning [7.535751594024775]
網膜症は、タイムリーに治療されないと、深刻な視覚障害や失明を引き起こす網膜疾患のグループである。
本稿では, 深い分類モデルを用いて, 異常網膜病理を段階的に学習することのできる, 漸進的なクロスドメイン適応手法を提案する。
提案したフレームワークは、6つの公開データセットで評価され、全体的な精度とF1スコアをそれぞれ0.9826と0.9846で達成することで、最先端の競合他社を上回っている。
論文 参考訳(メタデータ) (2021-10-18T13:45:21Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。