Fugu-MT 論文翻訳(概要): R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation

論文の概要: R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation

arxiv url: http://arxiv.org/abs/2408.09743v1
Date: Mon, 19 Aug 2024 07:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 17:24:19.923443
Title: R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation
Title（参考訳）: R2GenCSR:大規模言語モデルに基づくX線医療レポート生成のためのコンテキストサンプルの検索
Authors: Xiao Wang, Yuehang Li, Fuling Wang, Shiao Wang, Chuanfu Li, Bo Jiang,
Abstract要約: 本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
参考スコア（独自算出の注目度）: 7.4871243017824165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inspired by the tremendous success of Large Language Models (LLMs), existing X-ray medical report generation methods attempt to leverage large models to achieve better performance. They usually adopt a Transformer to extract the visual features of a given X-ray image, and then, feed them into the LLM for text generation. How to extract more effective information for the LLMs to help them improve final results is an urgent problem that needs to be solved. Additionally, the use of visual Transformer models also brings high computational complexity. To address these issues, this paper proposes a novel context-guided efficient X-ray medical report generation framework. Specifically, we introduce the Mamba as the vision backbone with linear complexity, and the performance obtained is comparable to that of the strong Transformer model. More importantly, we perform context retrieval from the training set for samples within each mini-batch during the training phase, utilizing both positively and negatively related samples to enhance feature representation and discriminative learning. Subsequently, we feed the vision tokens, context information, and prompt statements to invoke the LLM for generating high-quality medical reports. Extensive experiments on three X-ray report generation datasets (i.e., IU-Xray, MIMIC-CXR, CheXpert Plus) fully validated the effectiveness of our proposed model. The source code of this work will be released on \url{https://github.com/Event-AHU/Medical_Image_Analysis}.
Abstract（参考訳）: LLM(Large Language Models)の成功に触発されて、既存のX線医療レポート生成手法は、大きなモデルを活用してより良いパフォーマンスを実現しようとしている。彼らは通常、あるX線画像の視覚的特徴を抽出するためにトランスフォーマーを採用し、テキスト生成のためにLSMに供給する。 LLMが最終的な結果を改善するために、より効果的な情報を抽出する方法は、解決すべき緊急の問題である。さらに、ビジュアルトランスフォーマーモデルの使用は、高い計算複雑性をもたらす。これらの課題に対処するために,新しい文脈誘導型効率的なX線医療報告作成フレームワークを提案する。具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。さらに、トレーニング期間中に、各ミニバッチ内のサンプルに対するトレーニングセットからコンテキスト検索を行い、肯定的および否定的の両方のサンプルを用いて特徴表現と識別学習を強化する。その後、視覚トークン、文脈情報を与え、高品質な医療報告を生成するためにLSMを呼び出すよう指示する。 3つのX線レポート生成データセット(IU-Xray、MIMIC-CXR、CheXpert Plus)の大規模な実験により、提案モデルの有効性が完全に検証された。この作業のソースコードは \url{https://github.com/Event-AHU/Medical_Image_Analysis} で公開される。

関連論文リスト

Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval-Augmented Generation [15.468023420115431]
MLLMは、検索強化された生成フレームワークであるVisual RAGをサポートするためにどのように拡張されるかを示す。 MIMIC-CXR胸部X線レポート生成とマルチケア医療画像キャプション生成データセットについて,ビジュアルRAGが実体探索の精度を向上させることを示す。
論文参考訳（メタデータ） (2025-02-20T20:55:34Z)
Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文参考訳（メタデータ） (2025-01-07T01:19:48Z)
Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T05:08:18Z)
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset [14.911363203907008]
X線画像に基づく医療報告生成は、診断上の負担と患者待ち時間を著しく削減することができる。我々は、CheXpert Plusデータセット上で、既存の主流X線レポート生成モデルと大規模言語モデル(LLM)の包括的なベンチマークを行う。自己教師付き自己回帰生成やX線レポートによるコントラスト学習を含む,多段階事前学習戦略を用いたX線画像生成のための大規模モデルを提案する。
論文参考訳（メタデータ） (2024-10-01T04:07:01Z)
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文参考訳（メタデータ） (2024-05-14T19:53:20Z)
SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-27T13:46:23Z)
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル(MLLM),少数ショットプロンプト(FP),視覚的グラウンドディング(VG)を統合した最初のモデルである。その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文参考訳（メタデータ） (2024-03-22T19:19:51Z)
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文参考訳（メタデータ） (2023-12-04T06:40:12Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Competence-based Multimodal Curriculum Learning for Medical Report Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文参考訳（メタデータ） (2022-06-24T08:16:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。