論文の概要: UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2503.15940v1
- Date: Thu, 20 Mar 2025 08:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:59.884598
- Title: UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation
- Title(参考訳): UniCrossAdapter: 放射線学レポート生成のためのCLIPのマルチモーダル適応
- Authors: Yaxiong Chen, Chuang Du, Chunlei Li, Jingliang Hu, Yilei Shi, Shengwu Xiong, Xiao Xiang Zhu, Lichao Mou,
- Abstract要約: 画像とテキスト間のクロスモーダルセマンティクスをよりよく捉えるために,大規模な事前学習型視覚言語モデルであるCLIPから表現を転送することを提案する。
効率的な適応を実現するために、CLIPに組み込まれ、ターゲットタスクに微調整される軽量アダプタモジュールであるUniCrossAdapterを導入する。
- 参考スコア(独自算出の注目度): 31.72930277939111
- License:
- Abstract: Automated radiology report generation aims to expedite the tedious and error-prone reporting process for radiologists. While recent works have made progress, learning to align medical images and textual findings remains challenging due to the relative scarcity of labeled medical data. For example, datasets for this task are much smaller than those used for image captioning in computer vision. In this work, we propose to transfer representations from CLIP, a large-scale pre-trained vision-language model, to better capture cross-modal semantics between images and texts. However, directly applying CLIP is suboptimal due to the domain gap between natural images and radiology. To enable efficient adaptation, we introduce UniCrossAdapter, lightweight adapter modules that are incorporated into CLIP and fine-tuned on the target task while keeping base parameters fixed. The adapters are distributed across modalities and their interaction to enhance vision-language alignment. Experiments on two public datasets demonstrate the effectiveness of our approach, advancing state-of-the-art in radiology report generation. The proposed transfer learning framework provides a means of harnessing semantic knowledge from large-scale pre-trained models to tackle data-scarce medical vision-language tasks. Code is available at https://github.com/chauncey-tow/MRG-CLIP.
- Abstract(参考訳): 自動放射線学レポート生成は, 放射線科医の退屈で間違いの少ない報告プロセスを迅速化することを目的としている。
最近の研究は進歩しているものの、ラベル付き医療データの相対的不足のため、医用画像とテキスト所見の整合性を学ぶことは依然として困難である。
例えば、このタスクのデータセットはコンピュータビジョンのイメージキャプションに使用されるデータセットよりもはるかに小さい。
本研究では,大規模な事前学習型視覚言語モデルであるCLIPから表現を転送し,画像とテキスト間の相互意味性をよりよく捉えることを提案する。
しかし,CLIPの直接適用は自然画像と放射線学の領域差により最適ではない。
効率的な適応を実現するために、CLIPに組み込まれ、ベースパラメータを固定しつつ、ターゲットタスクに微調整された軽量アダプタモジュールであるUniCrossAdapterを導入する。
アダプタは、視覚言語アライメントを強化するために、モダリティと相互作用に分散される。
2つの公開データセットによる実験は、我々のアプローチの有効性を実証し、放射線学レポート生成における最先端の進歩を示す。
提案するトランスファー学習フレームワークは,大規模事前学習モデルから意味的知識を活用して,データ共有型医療ビジョン言語タスクに対処する手段を提供する。
コードはhttps://github.com/chauncey-tow/MRG-CLIPで入手できる。
関連論文リスト
- Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - RaDialog: A Large Vision-Language Model for Radiology Report Generation
and Conversational Assistance [53.20640629352422]
会話型AIツールは、所定の医療画像に対して臨床的に正しい放射線学レポートを生成し、議論することができる。
RaDialogは、ラジオロジーレポート生成と対話ダイアログのための、初めて徹底的に評価され、公開された大きな視覚言語モデルである。
本手法は,報告生成における最先端の臨床的正確性を実現し,報告の修正や質問への回答などのインタラクティブなタスクにおいて,印象的な能力を示す。
論文 参考訳(メタデータ) (2023-11-30T16:28:40Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - A Medical Semantic-Assisted Transformer for Radiographic Report
Generation [39.99216295697047]
入力された微細な画像特徴間の高次相互作用を捉えるために,メモリ拡張されたスパースアテンションブロックを提案する。
また,詳細なセマンティック概念を予測し,レポート生成プロセスに組み込むための新しい医療概念生成ネットワーク(MCGN)についても紹介する。
論文 参考訳(メタデータ) (2022-08-22T14:38:19Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。