論文の概要: Bridged Semantic Alignment for Zero-shot 3D Medical Image Diagnosis
- arxiv url: http://arxiv.org/abs/2501.03565v1
- Date: Tue, 07 Jan 2025 06:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:36.173092
- Title: Bridged Semantic Alignment for Zero-shot 3D Medical Image Diagnosis
- Title(参考訳): ゼロショット3次元医用画像診断のためのブリッジドセマンティックアライメント
- Authors: Haoran Lai, Zihang Jiang, Qingsong Yao, Rongsheng Wang, Zhiyang He, Xiaodong Tao, Wei Wei, Weifu Lv, S. Kevin Zhou,
- Abstract要約: CT(Computed Tomography)などの3次元医用画像は臨床で広く用いられており,自動診断の可能性が強い。
教師付き学習ベースのアプローチは大きな進歩を遂げているが、広範囲のマニュアルアノテーションに大きく依存している。
視覚言語アライメント(VLA)は、追加アノテーションなしでゼロショット学習を可能にすることで、有望な代替手段を提供する。
- 参考スコア(独自算出の注目度): 23.56751925900571
- License:
- Abstract: 3D medical images such as Computed tomography (CT) are widely used in clinical practice, offering a great potential for automatic diagnosis. Supervised learning-based approaches have achieved significant progress but rely heavily on extensive manual annotations, limited by the availability of training data and the diversity of abnormality types. Vision-language alignment (VLA) offers a promising alternative by enabling zero-shot learning without additional annotations. However, we empirically discover that the visual and textural embeddings after alignment endeavors from existing VLA methods form two well-separated clusters, presenting a wide gap to be bridged. To bridge this gap, we propose a Bridged Semantic Alignment (BrgSA) framework. First, we utilize a large language model to perform semantic summarization of reports, extracting high-level semantic information. Second, we design a Cross-Modal Knowledge Interaction (CMKI) module that leverages a cross-modal knowledge bank as a semantic bridge, facilitating interaction between the two modalities, narrowing the gap, and improving their alignment. To comprehensively evaluate our method, we construct a benchmark dataset that includes 15 underrepresented abnormalities as well as utilize two existing benchmark datasets. Experimental results demonstrate that BrgSA achieves state-of-the-art performances on both public benchmark datasets and our custom-labeled dataset, with significant improvements in zero-shot diagnosis of underrepresented abnormalities.
- Abstract(参考訳): CT(Computed Tomography)などの3次元医用画像は臨床で広く用いられており,自動診断の可能性が強い。
教師付き学習ベースのアプローチは大きな進歩を遂げているが、トレーニングデータの可用性と異常型の多様性によって制限される広範囲な手動アノテーションに大きく依存している。
視覚言語アライメント(VLA)は、追加アノテーションなしでゼロショット学習を可能にすることで、有望な代替手段を提供する。
しかし,既存のVLA法からのアライメント作業による視覚的およびテクスチャ的埋め込みが2つのよく分断されたクラスタを形成し,広いギャップを埋めることが実証的に明らかとなった。
このギャップを埋めるために、Bridged Semantic Alignment (BrgSA) フレームワークを提案する。
まず,大規模言語モデルを用いてレポートのセマンティック要約を行い,ハイレベルなセマンティック情報を抽出する。
第2に、クロスモーダルな知識バンクをセマンティックブリッジとして活用し、2つのモード間の相互作用を容易にし、ギャップを狭め、アライメントを改善したクロスモーダルな知識インタラクション(CMKI)モジュールを設計する。
提案手法を網羅的に評価するために,15の未表現異常を含むベンチマークデータセットを構築し,既存のベンチマークデータセットを2つ利用した。
実験結果から, BrgSAは, ベンチマークデータセットとカスタムラベルデータセットの両方において, 最先端の性能を達成し, 未表現異常のゼロショット診断において大幅な改善が見られた。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Manifold-Aware Local Feature Modeling for Semi-Supervised Medical Image Segmentation [20.69908466577971]
マニフォールド対応局所特徴モデリングネットワーク (MANet) を導入し, 多様体監視信号を組み込むことでU-Netアーキテクチャを向上する。
ACDC、LA、Pancreas-NIHといったデータセットに関する我々の実験は、MANetがパフォーマンス指標における最先端の手法を一貫して超越していることを示しています。
論文 参考訳(メタデータ) (2024-10-14T08:40:35Z) - DuEDL: Dual-Branch Evidential Deep Learning for Scribble-Supervised Medical Image Segmentation [2.708515419272247]
我々はDuEDL(Dual-Branch Evi-dential Deep Learning)と呼ばれる新しいフレームワークを提案する。
提案手法は, 精度を犠牲にすることなく, モデルの信頼性と一般化能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:23:57Z) - Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image
Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。
提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。
Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文 参考訳(メタデータ) (2023-06-25T16:55:32Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Exploring Weakly Supervised Semantic Segmentation Ensembles for Medical
Imaging Systems [11.693197342734152]
画像中の医療条件の信頼性の高い分類と検出のための枠組みを提案する。
我々のフレームワークは、まず低しきい値CAMを用いてターゲットオブジェクトを高い確実性でカバーする。
我々は,BRATSでは最大8%,DECATHLONデータセットでは6%の改善ダイススコアを実証した。
論文 参考訳(メタデータ) (2023-03-14T13:31:05Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Binary Semantic Embedding for Histology Image Classification
and Retrieval [56.34863511025423]
バイナリ・セマンティック・エンベディング(LBSE)の学習方法を提案する。
効率的な埋め込み、分類、検索を行い、組織像の解釈可能なコンピュータ支援診断を提供する。
3つのベンチマークデータセットで実施された実験は、様々なシナリオにおいてLBSEの優位性を検証する。
論文 参考訳(メタデータ) (2020-10-07T08:36:44Z) - Collaborative Unsupervised Domain Adaptation for Medical Image Diagnosis [102.40869566439514]
我々は、Unsupervised Domain Adaptation (UDA)を通じて、対象タスクにおける学習を支援するために、関連ドメインからの豊富なラベル付きデータを活用しようとしている。
クリーンなラベル付きデータやサンプルを仮定するほとんどのUDAメソッドが等しく転送可能であるのとは異なり、協調的教師なしドメイン適応アルゴリズムを革新的に提案する。
提案手法の一般化性能を理論的に解析し,医用画像と一般画像の両方で実験的に評価する。
論文 参考訳(メタデータ) (2020-07-05T11:49:17Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。