論文の概要: Generate to Ground: Multimodal Text Conditioning Boosts Phrase Grounding in Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.12236v1
- Date: Wed, 16 Jul 2025 13:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.410665
- Title: Generate to Ground: Multimodal Text Conditioning Boosts Phrase Grounding in Medical Vision-Language Models
- Title(参考訳): マルチモーダルテキスト・コンディショニングによる医用ビジョンランゲージモデルにおけるファス・グラウンド化の促進
- Authors: Felix Nützel, Mischa Dombrowski, Bernhard Kainz,
- Abstract要約: 生成テキストから画像への拡散モデルにより,ゼロショットフレーズのグラウンド化性能が向上することを示す。
その結果, 医用画像領域において, 句接頭のためのより効果的なパラダイムとして, 生成的アプローチが確立された。
- 参考スコア(独自算出の注目度): 6.408114351192012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phrase grounding, i.e., mapping natural language phrases to specific image regions, holds significant potential for disease localization in medical imaging through clinical reports. While current state-of-the-art methods rely on discriminative, self-supervised contrastive models, we demonstrate that generative text-to-image diffusion models, leveraging cross-attention maps, can achieve superior zero-shot phrase grounding performance. Contrary to prior assumptions, we show that fine-tuning diffusion models with a frozen, domain-specific language model, such as CXR-BERT, substantially outperforms domain-agnostic counterparts. This setup achieves remarkable improvements, with mIoU scores doubling those of current discriminative methods. These findings highlight the underexplored potential of generative models for phrase grounding tasks. To further enhance performance, we introduce Bimodal Bias Merging (BBM), a novel post-processing technique that aligns text and image biases to identify regions of high certainty. BBM refines cross-attention maps, achieving even greater localization accuracy. Our results establish generative approaches as a more effective paradigm for phrase grounding in the medical imaging domain, paving the way for more robust and interpretable applications in clinical practice. The source code and model weights are available at https://github.com/Felix-012/generate_to_ground.
- Abstract(参考訳): 用語句を特定の画像領域にマッピングするフレーズグラウンドディングは、臨床報告を通じて医療画像における疾患の局在に重要な可能性を秘めている。
現在の最先端の手法は差別的で自己監督的なコントラストモデルに依存しているが、生成的テキスト・画像拡散モデルでは、相互注意マップを利用して、より優れたゼロショットフレーズグラウンドリング性能が得られることを示す。
従来の仮定とは対照的に、CXR-BERTのような凍結したドメイン固有言語モデルを用いた微調整拡散モデルは、ドメインに依存しない言語よりも大幅に優れていることを示す。
この設定は、mIoUスコアが現在の差別的手法の2倍になるなど、著しく改善されている。
これらの知見は,句接頭作業における生成モデルの未解明の可能性を強調した。
そこで本研究では,テキストと画像のバイアスを高確かさの領域に合わせるポストプロセッシング技術であるBimodal Bias Merging (BBM)を紹介した。
BBMはクロスアテンションマップを洗練し、より高いローカライゼーション精度を達成する。
本研究は,医療画像領域における語句接頭のためのより効果的なパラダイムとして生成的アプローチを確立し,より堅牢で解釈可能な臨床実践への道を開いた。
ソースコードとモデルの重み付けはhttps://github.com/Felix-012/generate_to_groundで確認できる。
関連論文リスト
- Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models [8.94567513238762]
標準テキスト条件付潜時拡散モデルでは, 対象スキャンの対応する領域と, 臨床上の関連情報が一致しないことが示されている。
句接地のような下流のタスクに効率的に再利用できるように,事前訓練されたモデルにおけるマルチモーダルアライメントを改善するための微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-12T12:19:18Z) - Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models [12.264115733611058]
テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。
私たちは、この挑戦的なタスクを実行するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。
胸部X線検査の結果から, 病理組織学的にSOTAと競合する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-19T14:43:48Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Zero-shot Medical Image Translation via Frequency-Guided Diffusion
Models [9.15810015583615]
構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。
その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングし、ソース・ツー・ターゲットドメインの変換に直接使用することができる。
FGDMは、Frechet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、および構造的類似性の測定値において、最先端手法(GANベース、VAEベース、拡散ベース)よりも優れていた
論文 参考訳(メタデータ) (2023-04-05T20:47:40Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。