論文の概要: Cross-modal Prototype Driven Network for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2207.04818v1
- Date: Mon, 11 Jul 2022 12:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:01:48.871992
- Title: Cross-modal Prototype Driven Network for Radiology Report Generation
- Title(参考訳): 放射能レポート生成のためのクロスモーダルプロトタイプ駆動ネットワーク
- Authors: Jun Wang, Abhir Bhalerao, and Yulan He
- Abstract要約: 放射線学報告生成(RRG)は、人のような言語で自動的に放射線学画像を記述することを目的としており、放射線学者の作業を支援する可能性がある。
従来のアプローチでは、エンコーダ-デコーダアーキテクチャを採用し、単一モードの機能学習に重点を置いていた。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
- 参考スコア(独自算出の注目度): 30.029659845237077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation (RRG) aims to describe automatically a radiology
image with human-like language and could potentially support the work of
radiologists, reducing the burden of manual reporting. Previous approaches
often adopt an encoder-decoder architecture and focus on single-modal feature
learning, while few studies explore cross-modal feature interaction. Here we
propose a Cross-modal PROtotype driven NETwork (XPRONET) to promote cross-modal
pattern learning and exploit it to improve the task of radiology report
generation. This is achieved by three well-designed, fully differentiable and
complementary modules: a shared cross-modal prototype matrix to record the
cross-modal prototypes; a cross-modal prototype network to learn the
cross-modal prototypes and embed the cross-modal information into the visual
and textual features; and an improved multi-label contrastive loss to enable
and enhance multi-label prototype learning. XPRONET obtains substantial
improvements on the IU-Xray and MIMIC-CXR benchmarks, where its performance
exceeds recent state-of-the-art approaches by a large margin on IU-Xray and
comparable performance on MIMIC-CXR.
- Abstract(参考訳): 放射線レポート生成(rrg)は、人間のような言語で放射線画像を自動的に記述することを目的としており、放射線学者の仕事を支援する可能性があり、手動報告の負担を軽減できる。
従来のアプローチではエンコーダ-デコーダアーキテクチャを採用し、単一モーダルな特徴学習に重点を置いている。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
クロスモーダルのプロトタイプを記録できる共有クロスモーダルのプロトタイプマトリックス、クロスモーダルのプロトタイプを学習し、視覚的およびテキスト的特徴にクロスモーダルの情報を埋め込むクロスモーダルのプロトタイプネットワーク、マルチレーベルのプロトタイプ学習を有効にし拡張するためのマルチラベルのコントラスト的損失の改善である。
XPRONET は IU-Xray と MIMIC-CXR のベンチマークで大幅に改善されており、その性能は IU-Xray と MIMIC-CXR に匹敵する性能で最近の最先端のアプローチを上回っている。
関連論文リスト
- MAIRA-1: A specialised large multimodal model for radiology report
generation [42.62093620150713]
胸部X線(CXR)から放射線学的レポートを生成するための放射線学固有のマルチモーダルモデルを提案する。
我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。
提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。
論文 参考訳(メタデータ) (2023-11-22T19:45:40Z) - Cross-Modal Translation and Alignment for Survival Analysis [7.657906359372181]
本研究は,本質的な相互モーダル相関と伝達電位補間情報について検討する枠組みを提案する。
5つの公開TCGAデータセットに対する実験により、提案したフレームワークが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-22T13:29:14Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。
X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文 参考訳(メタデータ) (2021-08-18T16:05:30Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。