Fugu-MT 論文翻訳(概要): Cross-modal Prototype Driven Network for Radiology Report Generation

論文の概要: Cross-modal Prototype Driven Network for Radiology Report Generation

arxiv url: http://arxiv.org/abs/2207.04818v1
Date: Mon, 11 Jul 2022 12:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 13:01:48.871992
Title: Cross-modal Prototype Driven Network for Radiology Report Generation
Title（参考訳）: 放射能レポート生成のためのクロスモーダルプロトタイプ駆動ネットワーク
Authors: Jun Wang, Abhir Bhalerao, and Yulan He
Abstract要約: 放射線学報告生成(RRG)は、人のような言語で自動的に放射線学画像を記述することを目的としており、放射線学者の作業を支援する可能性がある。従来のアプローチでは、エンコーダ-デコーダアーキテクチャを採用し、単一モードの機能学習に重点を置いていた。本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
参考スコア（独自算出の注目度）: 30.029659845237077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Radiology report generation (RRG) aims to describe automatically a radiology image with human-like language and could potentially support the work of radiologists, reducing the burden of manual reporting. Previous approaches often adopt an encoder-decoder architecture and focus on single-modal feature learning, while few studies explore cross-modal feature interaction. Here we propose a Cross-modal PROtotype driven NETwork (XPRONET) to promote cross-modal pattern learning and exploit it to improve the task of radiology report generation. This is achieved by three well-designed, fully differentiable and complementary modules: a shared cross-modal prototype matrix to record the cross-modal prototypes; a cross-modal prototype network to learn the cross-modal prototypes and embed the cross-modal information into the visual and textual features; and an improved multi-label contrastive loss to enable and enhance multi-label prototype learning. XPRONET obtains substantial improvements on the IU-Xray and MIMIC-CXR benchmarks, where its performance exceeds recent state-of-the-art approaches by a large margin on IU-Xray and comparable performance on MIMIC-CXR.
Abstract（参考訳）: 放射線レポート生成(rrg)は、人間のような言語で放射線画像を自動的に記述することを目的としており、放射線学者の仕事を支援する可能性があり、手動報告の負担を軽減できる。従来のアプローチではエンコーダ-デコーダアーキテクチャを採用し、単一モーダルな特徴学習に重点を置いている。本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。クロスモーダルのプロトタイプを記録できる共有クロスモーダルのプロトタイプマトリックス、クロスモーダルのプロトタイプを学習し、視覚的およびテキスト的特徴にクロスモーダルの情報を埋め込むクロスモーダルのプロトタイプネットワーク、マルチレーベルのプロトタイプ学習を有効にし拡張するためのマルチラベルのコントラスト的損失の改善である。 XPRONET は IU-Xray と MIMIC-CXR のベンチマークで大幅に改善されており、その性能は IU-Xray と MIMIC-CXR に匹敵する性能で最近の最先端のアプローチを上回っている。

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
Adaptive Prototype Learning for Multimodal Cancer Survival Analysis [8.179859593451285]
本稿では, 適応型プロトタイプ学習(Adaptive Prototype Learning, APL)を提案する。 APLはデータ駆動方式で代表プロトタイプを適応的に学習し、重要な情報を保持しながら冗長性を低下させる。本手法では,高次元表現と生存予測の橋渡しとして,学習可能な2つのクエリベクトルを用いる。
論文参考訳（メタデータ） (2025-03-06T17:32:15Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文参考訳（メタデータ） (2024-10-21T17:42:41Z)
X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。 X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文参考訳（メタデータ） (2024-05-29T17:59:58Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Cross-Modal Translation and Alignment for Survival Analysis [7.657906359372181]
本研究は,本質的な相互モーダル相関と伝達電位補間情報について検討する枠組みを提案する。 5つの公開TCGAデータセットに対する実験により、提案したフレームワークが最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-09-22T13:29:14Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文参考訳（メタデータ） (2023-03-28T12:42:12Z)
Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。 IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文参考訳（メタデータ） (2022-04-28T02:32:53Z)
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。 X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文参考訳（メタデータ） (2021-08-18T16:05:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。