Fugu-MT 論文翻訳(概要): Multi-modal vision-language model for generalizable annotation-free pathological lesions localization

論文の概要: Multi-modal vision-language model for generalizable annotation-free pathological lesions localization

arxiv url: http://arxiv.org/abs/2401.02044v2
Date: Sun, 17 Mar 2024 08:51:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:32:42.999293
Title: Multi-modal vision-language model for generalizable annotation-free pathological lesions localization
Title（参考訳）: 一般化可能なアノテーションのない病理病変の局所化のためのマルチモーダル視覚言語モデル
Authors: Hao Yang, Hong-Yu Zhou, Zhihuan Li, Yuanxu Gao, Cheng Li, Weijian Huang, Jiarun Liu, Hairong Zheng, Kang Zhang, Shanshan Wang,
Abstract要約: 視覚言語による事前学習モデルを提案する。 Free Pathological Localization (AFLOC) AFLocのコアとなる強みは、多段階のセマンティック構造に基づくコントラスト学習にある。 AFLOCは6つの最先端の手法を超越し、5つの病因の特定においてヒトのベンチマークを上回ります。
参考スコア（独自算出の注目度）: 18.958171123895866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Defining pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability is crucial in clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language pre-training model for Annotation-Free pathological lesions Localization (AFLoc). The core strength of AFLoc lies in its extensive multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of pathologies and unseen pathologies without the reliance on image annotations from experts. We demonstrate the proof of concept on CXR images, with extensive experimental validation across 4 distinct external datasets, encompassing 11 types of chest pathologies. The results demonstrate that AFLoc surpasses 6 state-of-the-art methods and even outperforms the human benchmark in locating 5 different pathologies. We further verify its generalization ability in retinal fundus image pathological lesions localization. Our approach showcases AFLoc versatilities and underscores its suitability in complex clinical environments.
Abstract（参考訳）: 医用画像から病理を自動的に定義することは、疾患の発生と進展の理解に役立ち、臨床診断においてそのような能力は不可欠である。しかし、既存のディープラーニングモデルは専門家のアノテーションに大きく依存しており、オープンな臨床環境での一般化機能が欠如している。本研究では,AFLOC (Anotation-Free pathological lesions Localization) に対する視覚言語事前学習モデルを提案する。 AFLocのコアとなる強みは、多段階のセマンティックな構造に基づくコントラスト学習であり、多彩な画像特徴を持つレポートから多彩な医療概念を包括的に整合させ、専門家のイメージアノテーションに頼らずに、多彩な病理と見えない病理の表現に適応する。 CXR画像における概念の証明を実証し、11種類の胸部病理を含む4つの異なる外部データセットにわたる広範な実験的検証を行った。その結果、AFLOCは6つの最先端の手法を超越し、5つの病因の特定においてヒトのベンチマークを上回ります。網膜底部画像像の局所像における一般化能について検討した。本手法は, AFLOC の多様性を実証し, 複雑な臨床環境における適合性を裏付けるものである。

関連論文リスト

DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文参考訳（メタデータ） (2025-11-26T22:35:57Z)
A Survey of Multimodal Ophthalmic Diagnostics: From Task-Specific Approaches to Foundational Models [28.34025112894094]
このレビューでは、タスク固有のマルチモーダルアプローチと大規模マルチモーダル基盤モデルという2つの主要なカテゴリに焦点を当てている。この調査は重要なデータセット、評価指標、方法論の革新について批判的に調査している。また、データの多様性、アノテーションの制限、解釈可能性の欠如、様々な患者集団における一般化可能性の問題など、現在進行中の課題についても論じている。
論文参考訳（メタデータ） (2025-07-31T10:49:21Z)
DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文参考訳（メタデータ） (2025-07-24T14:12:20Z)
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach [57.86418347491272]
全身に404例の異常所見を呈する包括的階層分類システムを提案する。複数平面および全人体領域からの14.5K以上のCT画像を含むデータセットを寄贈し,19K以上の異常に対する接地アノテーションを念頭に提供した。 OminiAbnorm-CTは,テキストクエリに基づいて,多面的および全身的なCT画像に異常な所見を自動的に検出し,記述することができる。
論文参考訳（メタデータ） (2025-06-03T17:57:34Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
CMSwinKANは、病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルである。臨床所見から導かれるソフト投票機構を導入し,パッチレベルの予測をスライド画像全体の分類にシームレスにブリッジする。その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文参考訳（メタデータ） (2025-04-18T15:39:46Z)
MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [52.106879463828044]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文参考訳（メタデータ） (2025-03-01T07:02:30Z)
URCDM: Ultra-Resolution Image Synthesis in Histopathology [4.393805955844748]
Ultra-Resolution Cascaded Diffusion Models (URCDMs) は、すべての病理像を高分解能で合成することができる。本手法は脳,乳腺,腎臓の組織からなる3つの異なるデータセットを用いて評価した。 URCDMは、訓練された評価器が実際の画像と区別できない様々な解像度の出力を一貫して生成する。
論文参考訳（メタデータ） (2024-07-18T08:31:55Z)
Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification [8.382606243533942]
本稿では,説明可能な言語インフォームド基準に基づく診断に向けて,シンプルで効果的なフレームワークであるExplicdを紹介した。事前訓練された視覚言語モデルを活用することで、Explicdはこれらの基準を知識アンカーとして埋め込み空間に注入する。最終的な診断結果は、符号化された視覚概念とテキストの基準埋め込みとの類似度スコアに基づいて決定される。
論文参考訳（メタデータ） (2024-06-08T23:23:28Z)
Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文参考訳（メタデータ） (2024-05-23T02:22:10Z)
Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文参考訳（メタデータ） (2024-04-15T17:11:25Z)
A Clinical-oriented Multi-level Contrastive Learning Method for Disease Diagnosis in Low-quality Medical Images [4.576524795036682]
コントラスト学習(CL)により誘導される疾患診断法は,病変の特徴表現において有意な優位性を示した。本稿では,病変の特徴を抽出するためのモデルの能力向上を目的とした,臨床指向型多段階CLフレームワークを提案する。提案されたCLフレームワークは、EyeQとChest X-rayの2つの公開医療画像データセットで検証されている。
論文参考訳（メタデータ） (2024-04-07T09:08:14Z)
VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文参考訳（メタデータ） (2024-01-02T19:51:49Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision [17.875098424936542]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。各種ソースから38個のオープンアクセスデータセットを収集した。我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文参考訳（メタデータ） (2023-08-15T17:39:52Z)
A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文参考訳（メタデータ） (2023-06-01T16:23:47Z)
Multi-Modal Learning Using Physicians Diagnostics for Optical Coherence Tomography Classification [0.0]
我々は,光学コヒーレンス・トモグラフィーの分析に専門家の診断と知見を取り入れたフレームワークを提案する。 OCTを用いた疾患分類を改善するために,医学診断属性データセットを作成する。
論文参考訳（メタデータ） (2022-03-20T18:37:20Z)
Act Like a Radiologist: Towards Reliable Multi-view Correspondence Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。 AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。 2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文参考訳（メタデータ） (2021-05-21T06:48:34Z)
Malignancy Prediction and Lesion Identification from Clinical Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文参考訳（メタデータ） (2021-04-02T20:52:05Z)
Weakly supervised multiple instance learning histopathological tumor segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。トレーニングモデルに複数のインスタンス学習スキームを利用する。提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文参考訳（メタデータ） (2020-04-10T13:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。