論文の概要: Anatomy-Aware Conditional Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2503.07456v1
- Date: Mon, 10 Mar 2025 15:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:34.598532
- Title: Anatomy-Aware Conditional Image-Text Retrieval
- Title(参考訳): 解剖学的手法による条件付き画像-テキスト検索
- Authors: Meng Zheng, Jiajin Zhang, Benjamin Planche, Zhongpai Gao, Terrence Chen, Ziyan Wu,
- Abstract要約: Image-Text Retrieval (ITR) は、関連する患者を自動的に検索することで、医療、臨床医、放射線科医に広く応用されている。
我々は,同じ解剖領域で類似の症例を検索することを目的とした解剖学的位置決定画像検索フレームワークを提案する。
提案したRRA-VLは,位相グラウンドタスクにおける最先端のローカライズ性能を実現する。
- 参考スコア(独自算出の注目度): 29.872292146073207
- License:
- Abstract: Image-Text Retrieval (ITR) finds broad applications in healthcare, aiding clinicians and radiologists by automatically retrieving relevant patient cases in the database given the query image and/or report, for more efficient clinical diagnosis and treatment, especially for rare diseases. However conventional ITR systems typically only rely on global image or text representations for measuring patient image/report similarities, which overlook local distinctiveness across patient cases. This often results in suboptimal retrieval performance. In this paper, we propose an Anatomical Location-Conditioned Image-Text Retrieval (ALC-ITR) framework, which, given a query image and the associated suspicious anatomical region(s), aims to retrieve similar patient cases exhibiting the same disease or symptoms in the same anatomical region. To perform location-conditioned multimodal retrieval, we learn a medical Relevance-Region-Aligned Vision Language (RRA-VL) model with semantic global-level and region-/word-level alignment to produce generalizable, well-aligned multi-modal representations. Additionally, we perform location-conditioned contrastive learning to further utilize cross-pair region-level contrastiveness for improved multi-modal retrieval. We show that our proposed RRA-VL achieves state-of-the-art localization performance in phase-grounding tasks, and satisfying multi-modal retrieval performance with or without location conditioning. Finally, we thoroughly investigate the generalizability and explainability of our proposed ALC-ITR system in providing explanations and preliminary diagnosis reports given retrieved patient cases (conditioned on anatomical regions), with proper off-the-shelf LLM prompts.
- Abstract(参考訳): Image-Text Retrieval (ITR) は、検索画像および/またはレポートが与えられたデータベース内の関連する患者を自動的に検索し、特にまれな疾患に対するより効率的な臨床診断と治療を行う医療、臨床医、放射線技師に広く応用されている。
しかし、従来のITRシステムは通常、患者の画像/報告の類似性を測定するために、グローバルイメージやテキスト表現にのみ依存しており、患者間の局所的な特徴を見落としている。
これはしばしば、最適以下の検索性能をもたらす。
本稿では,同じ解剖領域に同一の疾患や症状を呈する類似の症例を検索することを目的とした,解剖学的位置決定画像検索(ALC-ITR)フレームワークを提案する。
位置条件付きマルチモーダル検索を行うために,意味的グローバルレベルと領域/単語レベルのアライメントを持つ医療関連適応型視覚言語(RRA-VL)モデルを学習し,一般化可能で整合性の高いマルチモーダル表現を生成する。
さらに、位置条件付きコントラスト学習を行い、クロスペア領域レベルのコントラストネスをさらに活用し、マルチモーダル検索を改善する。
提案したRRA-VLは,位相グラウンドタスクにおける最先端のローカライズ性能を達成し,位置条件付の有無でマルチモーダル検索性能を満足することを示す。
最後に, 得られた患者 (解剖学的領域に条件付き) に対して, 既往のLCMプロンプトを用いた説明および予備診断報告を提供する上で, 提案したALC-ITRシステムの汎用性と説明可能性について, 徹底的に検討した。
関連論文リスト
- SeCo-INR: Semantically Conditioned Implicit Neural Representations for Improved Medical Image Super-Resolution [25.078280843551322]
Inlicit Neural Representation (INR) は、信号の連続的な表現を学習する能力により、近年ディープラーニングの分野を進歩させている。
医用画像から局所的な先行情報を用いてINRを条件付ける,Semantically Conditioned INR (SeCo-INR) と呼ばれる新しいフレームワークを提案する。
本フレームワークは、医用画像のセマンティックセグメンテーション特徴の連続表現を学習し、それを用いて画像の各セマンティック領域に対して最適なINRを導出する。
論文 参考訳(メタデータ) (2024-09-02T07:45:06Z) - Applying Conditional Generative Adversarial Networks for Imaging Diagnosis [3.881664394416534]
本研究は、スタックド・ホアーグラス・ネットワーク(SHGN)と統合されたコンディショナル・ジェネレーション・アドバイザリアル・ネットワーク(C-GAN)の革新的な応用を紹介する。
我々は、複雑な画像データセットに適用されるディープラーニングモデルに共通するオーバーフィッティングの問題に、回転とスケーリングを通じてデータを増大させることで対処する。
血管内超音波(IVUS)画像において,L1とL2再構成損失を併用したハイブリッド損失関数を導入する。
論文 参考訳(メタデータ) (2024-07-17T23:23:09Z) - Multi-modality Regional Alignment Network for Covid X-Ray Survival Prediction and Report Generation [36.343753593390254]
本研究は,放射線学報告の生成と生存予測のための説明可能なモデルであるマルチモーダル地域アライメントネットワーク(MRANet)を提案する。
MRANetは、領域固有の記述を視覚的に根拠として、完了戦略を備えた堅牢な解剖学的領域を提供する。
横断LDMアライメントは、画像からテキストへの転送プロセスを強化するために使用され、その結果、臨床詳細に富んだ文と、放射線医の説明可能性が改善された。
論文 参考訳(メタデータ) (2024-05-23T02:41:08Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Implicit Neural Representation in Medical Imaging: A Comparative Survey [3.478921293603811]
Inlicit Neural representations (INR) はシーン再構成やコンピュータグラフィックスにおいて強力なパラダイムとして注目されている。
本調査は,医療画像の分野でのINRモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2023-07-30T06:39:25Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Region-based Contrastive Pretraining for Medical Image Retrieval with
Anatomic Query [56.54255735943497]
医用画像検索のための地域別コントラスト事前トレーニング(RegionMIR)
医用画像検索のための領域ベースコントラスト事前トレーニング(RegionMIR)について紹介する。
論文 参考訳(メタデータ) (2023-05-09T16:46:33Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。