論文の概要: Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation
- arxiv url: http://arxiv.org/abs/2303.15932v5
- Date: Tue, 18 Jul 2023 03:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 19:08:36.855580
- Title: Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation
- Title(参考訳): Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成
- Authors: Yaowei Li and Bang Yang and Xuxin Cheng and Zhihong Zhu and Hongxiang
Li and Yuexian Zou
- Abstract要約: マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
- 参考スコア(独自算出の注目度): 48.723504098917324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic radiology report generation has attracted enormous research
interest due to its practical value in reducing the workload of radiologists.
However, simultaneously establishing global correspondences between the image
(e.g., Chest X-ray) and its related report and local alignments between image
patches and keywords remains challenging. To this end, we propose an Unify,
Align and then Refine (UAR) approach to learn multi-level cross-modal
alignments and introduce three novel modules: Latent Space Unifier (LSU),
Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR).
Specifically, LSU unifies multimodal data into discrete tokens, making it
flexible to learn common knowledge among modalities with a shared network. The
modality-agnostic CRA learns discriminative features via a set of orthonormal
basis and a dual-gate mechanism first and then globally aligns visual and
textual representations under a triplet contrastive loss. TIR boosts
token-level local alignment via calibrating text-to-image attention with a
learnable mask. Additionally, we design a two-stage training procedure to make
UAR gradually grasp cross-modal alignments at different levels, which imitates
radiologists' workflow: writing sentence by sentence first and then checking
word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR
benchmark datasets demonstrate the superiority of our UAR against varied
state-of-the-art methods.
- Abstract(参考訳): 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。
しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。
この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。
特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。
モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。
TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。
さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。
関連論文リスト
- Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation [24.072847985361925]
放射線医学報告生成(RRG)は、医療資源不足を緩和する大きな可能性を秘めているため、研究の注目を集めている。
RRGの最近の進歩は、単一モーダルな特徴表現を符号化する際のモデルの能力の向上によって引き起こされる。
画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究はほとんどない。
クロスモーダルアライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
論文 参考訳(メタデータ) (2022-11-02T18:14:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment [9.265044250068554]
本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
論文 参考訳(メタデータ) (2021-09-04T22:58:35Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。