論文の概要: Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.12920v2
- Date: Wed, 17 Jul 2024 11:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:07:40.925594
- Title: Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models
- Title(参考訳): オフザシェルフ拡散モデルを用いたゼロショット医療薬効接地
- Authors: Konstantinos Vilouras, Pedro Sanchez, Alison Q. O'Neil, Sotirios A. Tsaftaris,
- Abstract要約: テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。
私たちは、この課題を解決するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。
胸部X線検査の結果から, 胸部X線検査と胸部X線検査を併用し, 胸部X線検査と胸部X線検査を併用し, 胸部X線検査と胸部X線検査を併用した。
- 参考スコア(独自算出の注目度): 12.264115733611058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localizing the exact pathological regions in a given medical scan is an important imaging problem that requires a large amount of bounding box ground truth annotations to be accurately solved. However, there exist alternative, potentially weaker, forms of supervision, such as accompanying free-text reports, which are readily available. The task of performing localization with textual guidance is commonly referred to as phrase grounding. In this work, we use a publicly available Foundation Model, namely the Latent Diffusion Model, to solve this challenging task. This choice is supported by the fact that the Latent Diffusion Model, despite being generative in nature, contains mechanisms (cross-attention) that implicitly align visual and textual features, thus leading to intermediate representations that are suitable for the task at hand. In addition, we aim to perform this task in a zero-shot manner, i.e., without any further training on target data, meaning that the model's weights remain frozen. To this end, we devise strategies to select features and also refine them via post-processing without extra learnable parameters. We compare our proposed method with state-of-the-art approaches which explicitly enforce image-text alignment in a joint embedding space via contrastive learning. Results on a popular chest X-ray benchmark indicate that our method is competitive wih SOTA on different types of pathology, and even outperforms them on average in terms of two metrics (mean IoU and AUC-ROC). Source code will be released upon acceptance.
- Abstract(参考訳): 与えられた医療スキャンにおける正確な病理領域の局在は、大量の境界ボックス基底真理アノテーションを正確に解決する必要がある重要な画像問題である。
しかし、自由テキストレポートが付属するなど、潜在的に弱い監督形態の代替が存在しているため、すぐに利用できる。
テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。
この作業では、この課題を解決するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。
この選択は、ラテント拡散モデルが本質的に生成的であるにもかかわらず、視覚的特徴とテキスト的特徴を暗黙的に整列する機構(クロスアテンション)を含んでいるという事実によって支持され、手作業に適した中間表現が導かれる。
さらに、このタスクをゼロショットで実行すること、すなわち、ターゲットデータに関するさらなるトレーニングを伴わず、モデルの重みは凍結状態のままである、という目標を掲げる。
この目的のために、我々は、追加の学習可能なパラメータを使わずに、特徴を選定し、後処理によって洗練する戦略を考案した。
提案手法を,コントラスト学習による共同埋め込み空間における画像テキストアライメントを明示的に実施する最先端手法と比較した。
胸部X線検査の結果から, 胸部X線検査では, 異なる種類の病理組織でSOTAと競合し, 2つの指標(平均IoU, AUC-ROC)で平均よりも優れていたことが示唆された。
ソースコードは受理時に公開される。
関連論文リスト
- Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。
深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-04-01T13:23:04Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - CrossEAI: Using Explainable AI to generate better bounding boxes for
Chest X-ray images [0.0]
画像診断では、疾患の分類は通常、高い精度を達成するが、生成された境界ボックスは、IoU(Intersection over Union)よりもはるかに低い。
従来の研究では、これらの手法によって生成された境界ボックスは、通常、地上の真理よりも大きく、主要な非放出領域を含んでいることが示されている。
本稿では,胸部X線画像診断のためのバウンディングボックスを生成するために,ポストホックAIの利点を利用する。
論文 参考訳(メタデータ) (2023-10-29T17:48:39Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Distill-SODA: Distilling Self-Supervised Vision Transformer for
Source-Free Open-Set Domain Adaptation in Computational Pathology [12.828728138651266]
スライド画像全体から手動の組織タイピングを減らすためには,計算病理モデルの開発が不可欠である。
本稿では,上記の課題に対処して,オープンソースフリーなオープンセットドメイン適応という現実的な設定を提案する。
提案手法は,事前学習したソースモデルをラベルなしのターゲットデータセットに適応させることに重点を置いている。
論文 参考訳(メタデータ) (2023-07-10T14:36:51Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。