Fugu-MT 論文翻訳(概要): Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Matching Framework

論文の概要: Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Matching Framework

arxiv url: http://arxiv.org/abs/2403.07636v1
Date: Tue, 12 Mar 2024 13:18:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:24:18.953110
Title: Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Matching Framework
Title（参考訳）: 病態検出のための疾患記述の分解:多視点視覚言語マッチングフレームワーク
Authors: Minh Hieu Phan, Yutong Xie, Yuankai Qi, Lingqiao Liu, Liyang Liu, Bowen Zhang, Zhibin Liao, Qi Wu, Minh-Son To, Johan W. Verjans
Abstract要約: 医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。現在, 医療画像と病理所見の整合に苦慮している。これは、大きな言語モデルと医療専門家に相談することで達成される。我々の成績は最近の手法を8.07%、AUCでは11.23%で上回っている。
参考スコア（独自算出の注目度）: 46.35091679002615
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease's textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours outperforms recent methods by up to 8.07% and 11.23% in AUC scores for seen and novel categories, respectively. Our code is released at \href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL}.
Abstract（参考訳）: 医学的視覚言語事前訓練(VLP)は研究の最前線として現れており、クエリ画像と各疾患のテキスト記述を比較してゼロショットの病理診断を可能にしている。バイオメディカルテキストの複雑なセマンティクスのために、現在の手法は、非構造化報告における重要な病理所見と医療画像の整合に苦慮している。これにより、対象の疾患のテキスト表現と不一致が生じる。本稿では,病態の視覚的発現に関する事前知識を活用し,疾患記述をその基本的な側面に分解する新しいVLPフレームワークを提案する。これは、大きな言語モデルと医療専門家に相談することで達成される。トランスフォーマーモジュールを統合することで,入力画像と疾患の多様な要素を整合させ,アスペクト中心の画像表現を生成する。各側面からマッチングを統合することにより、画像とその関連疾患の適合性を改善する。さらに, アスペクト指向表現を活かし, 既知の疾患や未知の疾患を処理し, 包括的検出効果を最適化したデュアルヘッドトランスフォーマを提案する。 7つの下流データセットで実験を行ない、最新の手法を最大8.07%、AUCスコアが11.23%、新しいカテゴリがそれぞれ上回っている。我々のコードは \href{https://github.com/HieuPhan33/MAVL}{https://github.com/HieuPhan33/MAVL} で公開されている。

関連論文リスト

Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。 PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-12T11:01:57Z)
Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。 DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文参考訳（メタデータ） (2025-05-21T05:16:45Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Prompt as Knowledge Bank: Boost Vision-language model via Structural Representation for zero-shot medical detection [32.99689130650503]
本稿では,情報バンク層を層単位でエンコードする構造GLIPを提案する。各層において、画像表現と知識バンクの両方から非常に類似した特徴を選択し、画像パッチと対象記述との間の微妙な関係をキャプチャする構造表現を形成する。実験により、構造GLIPは7つのゼロショット検診ベンチマークにおいて、最先端の手法よりも+4.1%AP改善を達成していることが示された。
論文参考訳（メタデータ） (2025-02-22T13:22:25Z)
MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。 MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文参考訳（メタデータ） (2025-01-18T14:08:33Z)
GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。 DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文参考訳（メタデータ） (2024-12-23T03:49:29Z)
Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文参考訳（メタデータ） (2024-04-15T17:11:25Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Text-guided Foundation Model Adaptation for Pathological Image Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。 CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文参考訳（メタデータ） (2023-07-27T14:44:56Z)
Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。 CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。 13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-07-24T16:13:43Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
NEEDED: Introducing Hierarchical Transformer to Eye Diseases Diagnosis [5.608716029921948]
本報告では,眼科領域における眼科領域の自動診断フレームワークNEEDEDについて述べる。情報密度と品質を改善するために前処理モジュールを統合する。診断部では,病原性情報を取得することにより,追跡可能な診断を可能にする注意ベースの予測器を提案する。
論文参考訳（メタデータ） (2022-12-27T08:37:57Z)
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文参考訳（メタデータ） (2022-10-12T09:31:39Z)
Cross Chest Graph for Disease Diagnosis with Structural Relational Reasoning [2.7148274921314615]
X線画像のコンピュータ診断において位置病変は重要である。一般に弱教師付き手法はX線像の特性を考慮できなかった。自動病変検出の性能を向上させるCross-chest Graph (CCG)を提案する。
論文参考訳（メタデータ） (2021-01-22T08:24:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。