論文の概要: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- arxiv url: http://arxiv.org/abs/2504.07416v1
- Date: Thu, 10 Apr 2025 03:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:40.107778
- Title: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- Title(参考訳): RadZero: ゼロショットマルチタスク機能を持つ放射線学における説明可能な視覚言語アライメントのための類似性に基づくクロスアテンション
- Authors: Jonggwon Park, Soobum Kim, Byungmu Yoon, Kyoyun Choi,
- Abstract要約: RadZeroは、放射線学における視覚言語アライメントのための新しい類似性に基づくクロスアテンションフレームワークである。
画像とテキスト記述間の関係を捉えるために、マルチ陽性のコントラスト学習戦略を採用している。
また、トレーニング済みのビジョンエンコーダを使用し、トレーニング可能なトランスフォーマー層を追加し、効率的な高解像度画像処理を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in multi-modal models have significantly improved vision-language alignment in radiology. However, existing approaches struggle to effectively utilize complex radiology reports for learning, rely on low-resolution images, and offer limited interpretability in attention mechanisms. To address these challenges, we introduce RadZero, a novel similarity-based cross-attention framework for vision-language alignment in radiology with zero-shot multi-task capability. RadZero leverages large language models to extract minimal semantic sentences from radiology reports and employs a multi-positive contrastive learning strategy to effectively capture relationships between images and multiple relevant textual descriptions. It also utilizes a pre-trained vision encoder with additional trainable Transformer layers, allowing efficient high-resolution image processing. By computing similarity between text embeddings and local image patch features, RadZero enables zero-shot inference with similarity probability for classification and pixel-level cross-modal similarity maps for grounding and segmentation. Experimental results on public chest radiograph benchmarks show that RadZero outperforms state-of-the-art methods in zero-shot classification, grounding, and segmentation. Furthermore, cross-modal similarity map analysis highlights its potential for improving explainability in vision-language alignment. Additionally, qualitative evaluation demonstrates RadZero's capability for open-vocabulary semantic segmentation, further validating its effectiveness in medical imaging.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、放射線学における視覚言語アライメントを大幅に改善した。
しかし、既存のアプローチでは、複雑な放射線学レポートを学習に効果的に活用し、低解像度画像に依存し、注意機構の限定的な解釈性を提供する。
これらの課題に対処するために,ゼロショットマルチタスク機能を備えた放射線学における視覚言語アライメントのための新しい類似性に基づくクロスアテンションフレームワークRadZeroを紹介する。
RadZeroは、大規模な言語モデルを活用して、ラジオロジーレポートから最小限の意味文を抽出し、画像と複数の関連するテキスト記述の関係を効果的に捉えるために、多陽性のコントラスト学習戦略を採用している。
また、トレーニング済みのビジョンエンコーダを使用し、トレーニング可能なトランスフォーマー層を追加し、効率的な高解像度画像処理を可能にする。
RadZeroはテキスト埋め込みとローカルイメージパッチの特徴の類似性を計算することで、分類のための類似性確率とグラウンドとセグメンテーションのためのピクセルレベルのクロスモーダル類似性マップのゼロショット推論を可能にする。
公開胸部X線写真ベンチマーク実験の結果,RadZeroはゼロショット分類,グラウンド化,セグメンテーションにおいて最先端の手法より優れていた。
さらに、モーダル類似性マップ解析は、視覚言語アライメントにおける説明可能性向上の可能性を強調している。
さらに質的な評価は、RadZeroのオープン語彙セマンティックセグメンテーション能力を示し、医療画像におけるその効果をさらに検証している。
関連論文リスト
- CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification [21.315060059765894]
放射線学ゼロショット分類のためのクロスアテンションアライメント(CARZero)という新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
本手法は単純かつ有効であり, 胸部X線写真診断5セットのゼロショット分類における最先端性を示す。
論文 参考訳(メタデータ) (2024-02-27T11:17:46Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation [4.452428104996953]
画像の異なる脳血管セグメンテーションのための半教師付きドメイン適応フレームワークを提案する。
本フレームワークは,注釈付血管造影と限られた数の血管造影に頼り,画像から画像への翻訳とセマンティックセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-09-12T09:12:37Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Contrastive Rendering for Ultrasound Image Segmentation [59.23915581079123]
米国の画像にシャープな境界がないことは、セグメンテーションに固有の課題である。
我々は,US画像における境界推定を改善するための,新しい,効果的なフレームワークを提案する。
提案手法は最先端の手法より優れており,臨床応用の可能性も高い。
論文 参考訳(メタデータ) (2020-10-10T07:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。