論文の概要: Decomposing Disease Descriptions for Enhanced Pathology Detection: A
Multi-Aspect Vision-Language Matching Framework
- arxiv url: http://arxiv.org/abs/2403.07636v1
- Date: Tue, 12 Mar 2024 13:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:24:18.953110
- Title: Decomposing Disease Descriptions for Enhanced Pathology Detection: A
Multi-Aspect Vision-Language Matching Framework
- Title(参考訳): 病態検出のための疾患記述の分解:多視点視覚言語マッチングフレームワーク
- Authors: Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu,
Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans
- Abstract要約: 医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
現在, 医療画像と病理所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の成績は最近の手法を8.07%、AUCでは11.23%で上回っている。
- 参考スコア(独自算出の注目度): 46.35091679002615
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical vision language pre-training (VLP) has emerged as a frontier of
research, enabling zero-shot pathological recognition by comparing the query
image with the textual descriptions for each disease. Due to the complex
semantics of biomedical texts, current methods struggle to align medical images
with key pathological findings in unstructured reports. This leads to the
misalignment with the target disease's textual representation. In this paper,
we introduce a novel VLP framework designed to dissect disease descriptions
into their fundamental aspects, leveraging prior knowledge about the visual
manifestations of pathologies. This is achieved by consulting a large language
model and medical experts. Integrating a Transformer module, our approach
aligns an input image with the diverse elements of a disease, generating
aspect-centric image representations. By consolidating the matches from each
aspect, we improve the compatibility between an image and its associated
disease. Additionally, capitalizing on the aspect-oriented representations, we
present a dual-head Transformer tailored to process known and unknown diseases,
optimizing the comprehensive detection efficacy. Conducting experiments on
seven downstream datasets, ours outperforms recent methods by up to 8.07% and
11.23% in AUC scores for seen and novel categories, respectively. Our code is
released at
\href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL}.
- Abstract(参考訳): 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、クエリ画像と各疾患のテキスト記述を比較してゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのために、現在の手法は、非構造化報告における重要な病理所見と医療画像の整合に苦慮している。
これにより、対象の疾患のテキスト表現と不一致が生じる。
本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的な側面に分解する新しいVLPフレームワークを提案する。
これは、大きな言語モデルと医療専門家に相談することで達成される。
トランスフォーマーモジュールを統合することで,入力画像と疾患の多様な要素を整合させ,アスペクト中心の画像表現を生成する。
各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。
さらに, アスペクト指向表現を活かし, 既知の疾患や未知の疾患を処理し, 包括的検出効果を最適化したデュアルヘッドトランスフォーマを提案する。
7つの下流データセットで実験を行ない、最新の手法を最大8.07%、AUCスコアが11.23%、新しいカテゴリがそれぞれ上回っている。
我々のコードは \href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL} で公開されている。
関連論文リスト
- Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - GraVIS: Grouping Augmented Views from Independent Sources for
Dermatology Analysis [52.04899592688968]
皮膚科画像から自己教師付き特徴を学習するために特に最適化されたGraVISを提案する。
GraVISは、病変のセグメンテーションと疾患分類のタスクにおいて、転送学習と自己教師型学習を著しく上回っている。
論文 参考訳(メタデータ) (2023-01-11T11:38:37Z) - NEEDED: Introducing Hierarchical Transformer to Eye Diseases Diagnosis [5.608716029921948]
本報告では,眼科領域における眼科領域の自動診断フレームワークNEEDEDについて述べる。
情報密度と品質を改善するために前処理モジュールを統合する。
診断部では,病原性情報を取得することにより,追跡可能な診断を可能にする注意ベースの予測器を提案する。
論文 参考訳(メタデータ) (2022-12-27T08:37:57Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Collaborative Unsupervised Domain Adaptation for Medical Image Diagnosis [102.40869566439514]
我々は、Unsupervised Domain Adaptation (UDA)を通じて、対象タスクにおける学習を支援するために、関連ドメインからの豊富なラベル付きデータを活用しようとしている。
クリーンなラベル付きデータやサンプルを仮定するほとんどのUDAメソッドが等しく転送可能であるのとは異なり、協調的教師なしドメイン適応アルゴリズムを革新的に提案する。
提案手法の一般化性能を理論的に解析し,医用画像と一般画像の両方で実験的に評価する。
論文 参考訳(メタデータ) (2020-07-05T11:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。