論文の概要: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- arxiv url: http://arxiv.org/abs/2504.07416v2
- Date: Tue, 01 Jul 2025 05:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.06466
- Title: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- Title(参考訳): RadZero: ゼロショットマルチタスク機能を持つ放射線学における説明可能な視覚言語アライメントのための類似性に基づくクロスアテンション
- Authors: Jonggwon Park, Soobum Kim, Byungmu Yoon, Kyoyun Choi,
- Abstract要約: RadZeroは放射線学における視覚言語アライメントのための新しいフレームワークである。
テキストの埋め込みとローカルな画像機能を組み合わせて、解釈可能できめ細かい推論を行う。
トレーニング済みのビジョンエンコーダとトレーニング可能なトランスフォーマー層を使用し、効率的な高解像度画像処理を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multi-modal models have significantly improved vision-language (VL) alignment in radiology. However, existing approaches struggle to effectively utilize complex radiology reports for learning and offer limited interpretability through attention probability visualizations. To address these challenges, we introduce RadZero, a novel framework for VL alignment in radiology with zero-shot multi-task capability. A key component of our approach is VL-CABS (Vision-Language Cross-Attention Based on Similarity), which aligns text embeddings with local image features for interpretable, fine-grained VL reasoning. RadZero leverages large language models to extract concise semantic sentences from radiology reports and employs multi-positive contrastive training to effectively capture relationships between images and multiple relevant textual descriptions. It uses a pre-trained vision encoder with additional trainable Transformer layers, allowing efficient high-resolution image processing. By computing similarity between text embeddings and local image patch features, VL-CABS enables zero-shot inference with similarity probability for classification, and pixel-level VL similarity maps for grounding and segmentation. Experimental results on public chest radiograph benchmarks show that RadZero outperforms state-of-the-art methods in zero-shot classification, grounding, and segmentation. Furthermore, VL similarity map analysis highlights the potential of VL-CABS for improving explainability in VL alignment. Additionally, qualitative evaluation demonstrates RadZero's capability for open-vocabulary semantic segmentation, further validating its effectiveness in medical imaging.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、放射線学における視覚言語(VL)アライメントを著しく改善した。
しかし、既存のアプローチでは、複雑な放射線学レポートを学習に効果的に活用し、注意確率の可視化を通じて限定的な解釈性を提供するのに苦労している。
これらの課題に対処するために、ゼロショットマルチタスク機能を備えたラジオロジーにおけるVLアライメントのための新しいフレームワークであるRadZeroを紹介する。
提案手法の重要な構成要素はVL-CABS (Vision-Language Cross-Attention Based Based similarity) である。
RadZeroは、大規模な言語モデルを活用して、ラジオロジーレポートから簡潔な意味文を抽出し、画像と複数の関連するテキスト記述の間の関係を効果的に捉えるために、マルチ陽性のコントラストトレーニングを採用している。
トレーニング済みのビジョンエンコーダとトレーニング可能なトランスフォーマー層を使用し、効率的な高解像度画像処理を可能にする。
テキスト埋め込みと局所像パッチの特徴の類似性を計算することで、VL-CABSは分類のための類似性確率を持つゼロショット推論と、グラウンドとセグメンテーションのためのピクセルレベルのVL類似性マップを可能にする。
公開胸部X線写真ベンチマーク実験の結果,RadZeroはゼロショット分類,グラウンド化,セグメンテーションにおいて最先端の手法より優れていた。
さらに、VL類似度マップ解析は、VLアライメントにおける説明可能性を改善するためのVL-CABSの可能性を強調している。
さらに質的評価は、RadZeroのオープン語彙セマンティックセグメンテーション能力を示し、医療画像におけるその有効性を検証している。
関連論文リスト
- Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification [21.315060059765894]
放射線学ゼロショット分類のためのクロスアテンションアライメント(CARZero)という新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
本手法は単純かつ有効であり, 胸部X線写真診断5セットのゼロショット分類における最先端性を示す。
論文 参考訳(メタデータ) (2024-02-27T11:17:46Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation [4.452428104996953]
画像の異なる脳血管セグメンテーションのための半教師付きドメイン適応フレームワークを提案する。
本フレームワークは,注釈付血管造影と限られた数の血管造影に頼り,画像から画像への翻訳とセマンティックセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-09-12T09:12:37Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Contrastive Rendering for Ultrasound Image Segmentation [59.23915581079123]
米国の画像にシャープな境界がないことは、セグメンテーションに固有の課題である。
我々は,US画像における境界推定を改善するための,新しい,効果的なフレームワークを提案する。
提案手法は最先端の手法より優れており,臨床応用の可能性も高い。
論文 参考訳(メタデータ) (2020-10-10T07:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。