論文の概要: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- arxiv url: http://arxiv.org/abs/2504.07416v2
- Date: Tue, 01 Jul 2025 05:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.06466
- Title: RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Radiology with Zero-Shot Multi-Task Capability
- Title(参考訳): RadZero: ゼロショットマルチタスク機能を持つ放射線学における説明可能な視覚言語アライメントのための類似性に基づくクロスアテンション
- Authors: Jonggwon Park, Soobum Kim, Byungmu Yoon, Kyoyun Choi,
- Abstract要約: RadZeroは放射線学における視覚言語アライメントのための新しいフレームワークである。
テキストの埋め込みとローカルな画像機能を組み合わせて、解釈可能できめ細かい推論を行う。
トレーニング済みのビジョンエンコーダとトレーニング可能なトランスフォーマー層を使用し、効率的な高解像度画像処理を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multi-modal models have significantly improved vision-language (VL) alignment in radiology. However, existing approaches struggle to effectively utilize complex radiology reports for learning and offer limited interpretability through attention probability visualizations. To address these challenges, we introduce RadZero, a novel framework for VL alignment in radiology with zero-shot multi-task capability. A key component of our approach is VL-CABS (Vision-Language Cross-Attention Based on Similarity), which aligns text embeddings with local image features for interpretable, fine-grained VL reasoning. RadZero leverages large language models to extract concise semantic sentences from radiology reports and employs multi-positive contrastive training to effectively capture relationships between images and multiple relevant textual descriptions. It uses a pre-trained vision encoder with additional trainable Transformer layers, allowing efficient high-resolution image processing. By computing similarity between text embeddings and local image patch features, VL-CABS enables zero-shot inference with similarity probability for classification, and pixel-level VL similarity maps for grounding and segmentation. Experimental results on public chest radiograph benchmarks show that RadZero outperforms state-of-the-art methods in zero-shot classification, grounding, and segmentation. Furthermore, VL similarity map analysis highlights the potential of VL-CABS for improving explainability in VL alignment. Additionally, qualitative evaluation demonstrates RadZero's capability for open-vocabulary semantic segmentation, further validating its effectiveness in medical imaging.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、放射線学における視覚言語(VL)アライメントを著しく改善した。
しかし、既存のアプローチでは、複雑な放射線学レポートを学習に効果的に活用し、注意確率の可視化を通じて限定的な解釈性を提供するのに苦労している。
これらの課題に対処するために、ゼロショットマルチタスク機能を備えたラジオロジーにおけるVLアライメントのための新しいフレームワークであるRadZeroを紹介する。
提案手法の重要な構成要素はVL-CABS (Vision-Language Cross-Attention Based Based similarity) である。
RadZeroは、大規模な言語モデルを活用して、ラジオロジーレポートから簡潔な意味文を抽出し、画像と複数の関連するテキスト記述の間の関係を効果的に捉えるために、マルチ陽性のコントラストトレーニングを採用している。
トレーニング済みのビジョンエンコーダとトレーニング可能なトランスフォーマー層を使用し、効率的な高解像度画像処理を可能にする。
テキスト埋め込みと局所像パッチの特徴の類似性を計算することで、VL-CABSは分類のための類似性確率を持つゼロショット推論と、グラウンドとセグメンテーションのためのピクセルレベルのVL類似性マップを可能にする。
公開胸部X線写真ベンチマーク実験の結果,RadZeroはゼロショット分類,グラウンド化,セグメンテーションにおいて最先端の手法より優れていた。
さらに、VL類似度マップ解析は、VLアライメントにおける説明可能性を改善するためのVL-CABSの可能性を強調している。
さらに質的評価は、RadZeroのオープン語彙セマンティックセグメンテーション能力を示し、医療画像におけるその有効性を検証している。
関連論文リスト
- HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - RadVLM: A Multitask Conversational Vision-Language Model for Radiology [10.522909557551419]
本稿では,CXR解釈のためのコンパクトなマルチタスク対話基盤モデルRadVLMを提案する。
以上の結果から,RadVLMは対話能力と視覚的グラウンドニングにおいて最先端の性能を達成することが示唆された。
これらの知見は、臨床的に関連するAIアシスタントとしてのRadVLMの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-05T16:27:02Z) - Bridged Semantic Alignment for Zero-shot 3D Medical Image Diagnosis [23.56751925900571]
CT(Computed Tomography)などの3次元医用画像は臨床で広く用いられており,自動診断の可能性が強い。
教師付き学習ベースのアプローチは大きな進歩を遂げているが、広範囲のマニュアルアノテーションに大きく依存している。
視覚言語アライメント(VLA)は、追加アノテーションなしでゼロショット学習を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-07T06:30:52Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification [21.315060059765894]
放射線学ゼロショット分類のためのクロスアテンションアライメント(CARZero)という新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
本手法は単純かつ有効であり, 胸部X線写真診断5セットのゼロショット分類における最先端性を示す。
論文 参考訳(メタデータ) (2024-02-27T11:17:46Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation [4.452428104996953]
画像の異なる脳血管セグメンテーションのための半教師付きドメイン適応フレームワークを提案する。
本フレームワークは,注釈付血管造影と限られた数の血管造影に頼り,画像から画像への翻訳とセマンティックセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-09-12T09:12:37Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Localized Region Contrast for Enhancing Self-Supervised Learning in
Medical Image Segmentation [27.82940072548603]
本稿では,地域コントラスト(LRC)を統合した新しいコントラスト学習フレームワークを提案する。
提案手法では,Felzenszwalbのアルゴリズムによるスーパーピクセルの同定と,新しいコントラッシブサンプリング損失を用いた局所コントラスト学習を行う。
論文 参考訳(メタデータ) (2023-04-06T22:43:13Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Contrastive Rendering for Ultrasound Image Segmentation [59.23915581079123]
米国の画像にシャープな境界がないことは、セグメンテーションに固有の課題である。
我々は,US画像における境界推定を改善するための,新しい,効果的なフレームワークを提案する。
提案手法は最先端の手法より優れており,臨床応用の可能性も高い。
論文 参考訳(メタデータ) (2020-10-10T07:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。