論文の概要: X-TRA: Improving Chest X-ray Tasks with Cross-Modal Retrieval
Augmentation
- arxiv url: http://arxiv.org/abs/2302.11352v1
- Date: Wed, 22 Feb 2023 12:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:14:07.271272
- Title: X-TRA: Improving Chest X-ray Tasks with Cross-Modal Retrieval
Augmentation
- Title(参考訳): X-TRA: クロスモーダル検索拡張による胸部X線処理の改善
- Authors: Tom van Sonsbeek and Marcel Worring
- Abstract要約: 胸部X線解析における複数のタスクにマルチモーダル検索拡張を適用した。
ビジョンと言語モダリティは、事前トレーニングされたCLIPモデルを使用して調整される。
非パラメトリック検索インデックスは最先端の検索レベルに達する。
- 参考スコア(独自算出の注目度): 14.375693586801338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important component of human analysis of medical images and their context
is the ability to relate newly seen things to related instances in our memory.
In this paper we mimic this ability by using multi-modal retrieval augmentation
and apply it to several tasks in chest X-ray analysis. By retrieving similar
images and/or radiology reports we expand and regularize the case at hand with
additional knowledge, while maintaining factual knowledge consistency. The
method consists of two components. First, vision and language modalities are
aligned using a pre-trained CLIP model. To enforce that the retrieval focus
will be on detailed disease-related content instead of global visual appearance
it is fine-tuned using disease class information. Subsequently, we construct a
non-parametric retrieval index, which reaches state-of-the-art retrieval
levels. We use this index in our downstream tasks to augment image
representations through multi-head attention for disease classification and
report retrieval. We show that retrieval augmentation gives considerable
improvements on these tasks. Our downstream report retrieval even shows to be
competitive with dedicated report generation methods, paving the path for this
method in medical imaging.
- Abstract(参考訳): 医用画像とその文脈を人間で分析する重要な要素は、新しく見られるものを記憶の関連インスタンスに関連付ける能力である。
本稿では,マルチモーダル検索拡張を用いてこれを模倣し,胸部X線解析におけるいくつかの課題に適用する。
類似した画像および/または放射線学のレポートを取得することで、ケースを拡張および規則化し、さらに知識を付加し、事実的知識の整合性を維持します。
この方法は2つの要素からなる。
第一に、ビジョンと言語モダリティは、事前訓練されたCLIPモデルを使用して調整される。
検索対象が、グローバルな視覚的外観ではなく、詳細な疾患関連コンテンツであることを保証するために、疾患クラス情報を用いて微調整を行う。
その後,最先端の検索レベルに達する非パラメトリック検索インデックスを構築する。
この指標を下流タスクで使用し,疾患分類と報告検索のための多頭部注意を通して画像表現を増強する。
検索の強化はこれらのタスクに大きな改善をもたらすことを示す。
我々の下流レポート検索は、医療画像におけるこの方法の道を切り開く専用レポート生成手法と競合することさえ示している。
関連論文リスト
- Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - MVC: A Multi-Task Vision Transformer Network for COVID-19 Diagnosis from
Chest X-ray Images [10.616065108433798]
本稿では,胸部X線画像を同時に分類し,入力データから影響領域を識別するマルチタスク・ビジョン・トランスフォーマ(MVC)を提案する。
提案手法はVision Transformer上に構築されているが,マルチタスク設定で学習能力を拡張している。
論文 参考訳(メタデータ) (2023-09-30T15:52:18Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Learning Better Contrastive View from Radiologist's Gaze [45.55702035003462]
診断における放射線技師の視線から学び,医用画像のコントラストビューを生成するための,新たな拡張手法であるFocusContrastを提案する。
具体的には、放射線医の視線の動きを追跡し、X線画像の読影時の視覚的注意をモデル化する。
プラグアンドプレイモジュールとして、FocusContrastは膝X線データセットの分類精度を4.07.0%改善した。
論文 参考訳(メタデータ) (2023-05-15T17:34:49Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Representative Image Feature Extraction via Contrastive Learning
Pretraining for Chest X-ray Report Generation [19.69560434388278]
医療報告生成の目標は、画像の発見を正確に把握し、記述することである。
以前の作業では、さまざまなドメインで大規模なデータセットを使用して、視覚的エンコーディングニューラルネットワークを事前トレーニングしていた。
本稿では,視覚的エンコーダの事前学習に対照的な学習手法を用い,メタ情報を必要としないフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-04T12:07:19Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。