論文の概要: Cross-modal Prototype Driven Network for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2207.04818v1
- Date: Mon, 11 Jul 2022 12:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:01:48.871992
- Title: Cross-modal Prototype Driven Network for Radiology Report Generation
- Title(参考訳): 放射能レポート生成のためのクロスモーダルプロトタイプ駆動ネットワーク
- Authors: Jun Wang, Abhir Bhalerao, and Yulan He
- Abstract要約: 放射線学報告生成(RRG)は、人のような言語で自動的に放射線学画像を記述することを目的としており、放射線学者の作業を支援する可能性がある。
従来のアプローチでは、エンコーダ-デコーダアーキテクチャを採用し、単一モードの機能学習に重点を置いていた。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
- 参考スコア(独自算出の注目度): 30.029659845237077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation (RRG) aims to describe automatically a radiology
image with human-like language and could potentially support the work of
radiologists, reducing the burden of manual reporting. Previous approaches
often adopt an encoder-decoder architecture and focus on single-modal feature
learning, while few studies explore cross-modal feature interaction. Here we
propose a Cross-modal PROtotype driven NETwork (XPRONET) to promote cross-modal
pattern learning and exploit it to improve the task of radiology report
generation. This is achieved by three well-designed, fully differentiable and
complementary modules: a shared cross-modal prototype matrix to record the
cross-modal prototypes; a cross-modal prototype network to learn the
cross-modal prototypes and embed the cross-modal information into the visual
and textual features; and an improved multi-label contrastive loss to enable
and enhance multi-label prototype learning. XPRONET obtains substantial
improvements on the IU-Xray and MIMIC-CXR benchmarks, where its performance
exceeds recent state-of-the-art approaches by a large margin on IU-Xray and
comparable performance on MIMIC-CXR.
- Abstract(参考訳): 放射線レポート生成(rrg)は、人間のような言語で放射線画像を自動的に記述することを目的としており、放射線学者の仕事を支援する可能性があり、手動報告の負担を軽減できる。
従来のアプローチではエンコーダ-デコーダアーキテクチャを採用し、単一モーダルな特徴学習に重点を置いている。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
クロスモーダルのプロトタイプを記録できる共有クロスモーダルのプロトタイプマトリックス、クロスモーダルのプロトタイプを学習し、視覚的およびテキスト的特徴にクロスモーダルの情報を埋め込むクロスモーダルのプロトタイプネットワーク、マルチレーベルのプロトタイプ学習を有効にし拡張するためのマルチラベルのコントラスト的損失の改善である。
XPRONET は IU-Xray と MIMIC-CXR のベンチマークで大幅に改善されており、その性能は IU-Xray と MIMIC-CXR に匹敵する性能で最近の最先端のアプローチを上回っている。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Cross-Modal Translation and Alignment for Survival Analysis [7.657906359372181]
本研究は,本質的な相互モーダル相関と伝達電位補間情報について検討する枠組みを提案する。
5つの公開TCGAデータセットに対する実験により、提案したフレームワークが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-22T13:29:14Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。
X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文 参考訳(メタデータ) (2021-08-18T16:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。