論文の概要: CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification
- arxiv url: http://arxiv.org/abs/2402.17417v2
- Date: Sun, 24 Mar 2024 15:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 01:25:45.977136
- Title: CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification
- Title(参考訳): CARZero: ゼロショット分類のためのクロスアテンションアライメント
- Authors: Haoran Lai, Qingsong Yao, Zihang Jiang, Rongsheng Wang, Zhiyang He, Xiaodong Tao, S. Kevin Zhou,
- Abstract要約: 放射線学ゼロショット分類のためのクロスアテンションアライメント(CARZero)という新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
本手法は単純かつ有効であり, 胸部X線写真診断5セットのゼロショット分類における最先端性を示す。
- 参考スコア(独自算出の注目度): 21.315060059765894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Zero-Shot Learning in the medical domain has been driven forward by using pre-trained models on large-scale image-text pairs, focusing on image-text alignment. However, existing methods primarily rely on cosine similarity for alignment, which may not fully capture the complex relationship between medical images and reports. To address this gap, we introduce a novel approach called Cross-Attention Alignment for Radiology Zero-Shot Classification (CARZero). Our approach innovatively leverages cross-attention mechanisms to process image and report features, creating a Similarity Representation that more accurately reflects the intricate relationships in medical semantics. This representation is then linearly projected to form an image-text similarity matrix for cross-modality alignment. Additionally, recognizing the pivotal role of prompt selection in zero-shot learning, CARZero incorporates a Large Language Model-based prompt alignment strategy. This strategy standardizes diverse diagnostic expressions into a unified format for both training and inference phases, overcoming the challenges of manual prompt design. Our approach is simple yet effective, demonstrating state-of-the-art performance in zero-shot classification on five official chest radiograph diagnostic test sets, including remarkable results on datasets with long-tail distributions of rare diseases. This achievement is attributed to our new image-text alignment strategy, which effectively addresses the complex relationship between medical images and reports. Code and models are available at https://github.com/laihaoran/CARZero.
- Abstract(参考訳): 医用領域におけるゼロショット学習の進歩は、画像テキストアライメントに焦点をあてて、大規模画像テキストペア上で事前訓練されたモデルを使用することによって前進してきた。
しかし、既存の手法は主にコサインの類似性に依存しており、医療画像と報告の間の複雑な関係を完全に捉えることはできない。
このギャップに対処するため、我々はCARZero(Cross-Attention Alignment for Radiology Zero-Shot Classification)と呼ばれる新しいアプローチを導入する。
提案手法では,画像の処理と特徴の報告にクロスアテンション機構を革新的に活用し,医用意味論における複雑な関係をより正確に反映した類似性表現を創出する。
この表現は線形に投影され、画像-テキスト類似性行列を形成する。
さらに、ゼロショット学習におけるプロンプト選択の重要な役割を認識し、CARZeroはLarge Language Modelベースのプロンプトアライメント戦略を取り入れている。
この戦略は、多様な診断表現をトレーニングと推論フェーズの両方の統一フォーマットに標準化し、手動のプロンプト設計の課題を克服する。
本手法は単純だが有効であり, 胸部X線写真診断5セットのゼロショット分類において, 稀な疾患の長期分布を示すデータセットの顕著な結果を含む, 最先端の成績を示す。
この成果は、医用画像とレポートの複雑な関係を効果的に扱う新しい画像テキストアライメント戦略によるものである。
コードとモデルはhttps://github.com/laihaoran/CARZero.comで公開されている。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Learning Generalized Medical Image Representations through Image-Graph Contrastive Pretraining [11.520404630575749]
胸部X線と構造化レポート知識グラフを組み合わせた画像グラフコントラスト学習フレームワークを開発した。
提案手法は,リレーショナルグラフ畳み込みネットワークとトランスフォーマーアテンションを介して,非連結グラフ成分を一意に符号化する。
論文 参考訳(メタデータ) (2024-05-15T12:27:38Z) - Class Attention to Regions of Lesion for Imbalanced Medical Image
Recognition [59.28732531600606]
データ不均衡問題に対処するため,textbfClass textbfAttention to textbfRegions of the lesion (CARE)を提案する。
CAREフレームワークは、まれな疾患の病変領域を表すために、バウンディングボックスを必要とする。
その結果,自動バウンディングボックス生成によるCARE変種は,オリジナルのCAREフレームワークに匹敵することがわかった。
論文 参考訳(メタデータ) (2023-07-19T15:19:02Z) - Graph Self-Supervised Learning for Endoscopic Image Matching [1.8275108630751844]
鍵点間の空間関係をモデル化するために,局所的な視覚的外観を捉える畳み込みニューラルネットワークと注目に基づくグラフニューラルネットワークを組み合わせた,新たな自己教師型アプローチを提案する。
我々のアプローチはラベル付きデータを必要とせず、完全に自己管理されたスキームで訓練されている。
提案手法は,最先端の手工法と深層学習法より優れ,精度(1)とマッチングスコア(99.3%)で優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:53:41Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Contrastive Semi-Supervised Learning for 2D Medical Image Segmentation [16.517086214275654]
フルイメージではなく,画像パッチにContrastive Learning(CL)を適用した,新しい半教師付き2次元医療セグメンテーションソリューションを提案する。
これらのパッチは、擬似ラベリングによって得られた異なるクラスの意味情報を用いて有意義に構築される。
また,コントラスト学習と相乗効果を持つ新しい整合正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-12T15:43:24Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。