論文の概要: EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2510.16776v1
- Date: Sun, 19 Oct 2025 09:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.137326
- Title: EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation
- Title(参考訳): EMRRG:放射線学レポート作成のための高速微調整X線マンバネットワーク
- Authors: Mingzheng Zhang, Jinfeng Gao, Dan Xu, Jiangrui Yu, Yuhan Qiao, Lan Chen, Jin Tang, Xiao Wang,
- Abstract要約: EMRRGは、トレーニング済みのMambaネットワークを微調整する新しいX線レポート生成フレームワークである。
ハイブリッドデコーダを備えたLCMは、医療レポートを生成し、エンドツーエンドのトレーニングを可能にし、ベンチマークデータセット上で強力な結果を得ることができる。
- 参考スコア(独自算出の注目度): 16.23892817333913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: X-ray image-based medical report generation (MRG) is a pivotal area in artificial intelligence that can significantly reduce diagnostic burdens for clinicians and patient wait times. Existing MRG models predominantly rely on Large Language Models (LLMs) to improve report generation, with limited exploration of pre-trained vision foundation models or advanced fine-tuning techniques. Mainstream frameworks either avoid fine-tuning or utilize simplistic methods like LoRA, often neglecting the potential of enhancing cross-attention mechanisms. Additionally, while Transformer-based models dominate vision-language tasks, non-Transformer architectures, such as the Mamba network, remain underexplored for medical report generation, presenting a promising avenue for future research. In this paper, we propose EMRRG, a novel X-ray report generation framework that fine-tunes pre-trained Mamba networks using parameter-efficient methods. Specifically, X-ray images are divided into patches, tokenized, and processed by an SSM-based vision backbone for feature extraction, with Partial LoRA yielding optimal performance. An LLM with a hybrid decoder generates the medical report, enabling end-to-end training and achieving strong results on benchmark datasets. Extensive experiments on three widely used benchmark datasets fully validated the effectiveness of our proposed strategies for the X-ray MRG. The source code of this paper will be released on https://github.com/Event-AHU/Medical_Image_Analysis.
- Abstract(参考訳): X線画像に基づく医療報告生成(MRG)は、人工知能において重要な領域であり、臨床医や患者待ち時間の診断負担を大幅に軽減することができる。
既存のMRGモデルは、主にレポート生成を改善するためにLarge Language Models (LLMs) に依存しており、事前訓練されたビジョン基盤モデルや高度な微調整技術の研究は限られている。
メインストリームフレームワークは、微調整を避けるか、LoRAのような単純化された手法を使うかのいずれかであり、しばしばクロスアテンションメカニズムの強化の可能性を無視している。
さらに、トランスフォーマーをベースとしたモデルが視覚言語タスクを支配しているが、Mambaネットワークのような非トランスフォーマーアーキテクチャは医療レポート生成に未熟であり、将来的な研究の道筋を示す。
本稿では,パラメータ効率の手法を用いて事前学習したマンバネットワークを微調整する新しいX線レポート生成フレームワークEMRRGを提案する。
具体的には、X線画像はパッチに分割され、トークン化され、特徴抽出のためのSSMベースのビジョンバックボーンによって処理される。
ハイブリッドデコーダを備えたLCMは、医療レポートを生成し、エンドツーエンドのトレーニングを可能にし、ベンチマークデータセット上で強力な結果を得ることができる。
X線MRGのための提案手法の有効性を検証した。
この論文のソースコードはhttps://github.com/Event-AHU/Medical_Image_Analysis.comで公開される。
関連論文リスト
- AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文 参考訳(メタデータ) (2025-08-12T06:37:41Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - LaB-RAG: Label Boosted Retrieval Augmented Generation for Radiology Report Generation [1.7983573166060747]
本稿では,Label Boosted Retrieval Augmented Generation (LaB-RAG)を提案する。
我々は,LaB-RAGが,他の検索に基づくRAG法と比較して,自然言語とラジオロジー言語で優れた結果が得られることを示す。
以上の結果から,RRG性能をより高めるための微調整手法とのより広範な互換性と相乗効果が示唆された。
論文 参考訳(メタデータ) (2024-11-25T16:10:05Z) - CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset [14.911363203907008]
X線画像に基づく医療報告生成は、診断上の負担と患者待ち時間を著しく削減することができる。
我々は、CheXpert Plusデータセット上で、既存の主流X線レポート生成モデルと大規模言語モデル(LLM)の包括的なベンチマークを行う。
自己教師付き自己回帰生成やX線レポートによるコントラスト学習を含む,多段階事前学習戦略を用いたX線画像生成のための大規模モデルを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:07:01Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - X-ray Made Simple: Lay Radiology Report Generation and Robust Evaluation [21.425178466284017]
ラジオロジーレポート生成(RRG)はマルチモーダル生成モデルの開発で大きく進歩している。
既存の語彙ベースのメトリクスで高いパフォーマンスを持つRRGは、単なるミラージュです - モデルはレポートのテンプレートを学習することでのみ、高いBLEUを得ることができます。
本稿では,BLEUの膨らませた数を軽減し,より堅牢な評価を行うセマンティクスに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T19:52:01Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。