論文の概要: LaB-RAG: Label Boosted Retrieval Augmented Generation for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2411.16523v2
- Date: Mon, 06 Oct 2025 18:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.581474
- Title: LaB-RAG: Label Boosted Retrieval Augmented Generation for Radiology Report Generation
- Title(参考訳): LaB-RAG:ラジオロジーレポート生成のためのレトリーバル増強ジェネレーション
- Authors: Steven Song, Anirudh Subramanyam, Irene Madejski, Robert L. Grossman,
- Abstract要約: 本稿では,Label Boosted Retrieval Augmented Generation (LaB-RAG)を提案する。
我々は,LaB-RAGが,他の検索に基づくRAG法と比較して,自然言語とラジオロジー言語で優れた結果が得られることを示す。
以上の結果から,RRG性能をより高めるための微調整手法とのより広範な互換性と相乗効果が示唆された。
- 参考スコア(独自算出の注目度): 1.7983573166060747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current paradigm of image captioning, deep learning models are trained to generate text from image embeddings of latent features. We challenge the assumption that fine-tuning of large, bespoke models is required to improve model generation accuracy. Here we propose Label Boosted Retrieval Augmented Generation (LaB-RAG), a small-model-based approach to image captioning that leverages image descriptors in the form of categorical labels to boost standard retrieval augmented generation (RAG) with pretrained large language models (LLMs). We study our method in the context of radiology report generation (RRG) over MIMIC-CXR and CheXpert Plus. We argue that simple classification models combined with zero-shot embeddings can effectively transform X-rays into text-space as radiology-specific labels. In combination with standard RAG, we show that these derived text labels can be used with general-domain LLMs to generate radiology reports. Without ever training our generative language model or image embedding models specifically for the task, and without ever directly "showing" the LLM an X-ray, we demonstrate that LaB-RAG achieves better results across natural language and radiology language metrics compared with other retrieval-based RRG methods, while attaining competitive results compared to other fine-tuned vision-language RRG models. We further conduct extensive ablation experiments to better understand the components of LaB-RAG. Our results suggest broader compatibility and synergy with fine-tuned methods to further enhance RRG performance.
- Abstract(参考訳): 画像キャプションの現在のパラダイムでは、深層学習モデルは、潜伏した特徴のイメージ埋め込みからテキストを生成するように訓練されている。
我々は,モデル生成精度を向上させるために,大規模で難解なモデルの微調整が必要であるという仮定に挑戦する。
本稿では,画像キャプションに対する小さなモデルベースアプローチであるLaB-RAG(Label Boosted Retrieval Augmented Generation)を提案する。
本手法は,MIMIC-CXRとCheXpert Plusを用いたラジオロジーレポート生成(RRG)の文脈で検討する。
ゼロショット埋め込みと組み合わせた単純な分類モデルは、X線をラジオロジー固有のラベルとしてテキスト空間に効果的に変換できると主張している。
標準RAGと組み合わせることで,これらのテキストラベルを汎用LLMと組み合わせてラジオグラフィーレポートを生成することができることを示す。
生成言語モデルやタスク専用画像埋め込みモデルをトレーニングすることなく、LLMをX線で直接"ショイング"することなく、LaB-RAGが他の検索ベースRRG法と比較して、自然言語とラジオロジー言語メトリクスでより良い結果を得る一方で、他の微調整された視覚言語RRGモデルと比較して、競争力のある結果が得られることを示した。
さらに,LaB-RAGの成分をよりよく理解するための広範囲なアブレーション実験を行った。
以上の結果から,RRG性能をより高めるための微調整手法とのより広範な互換性と相乗効果が示唆された。
関連論文リスト
- UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation [31.72930277939111]
画像とテキスト間のクロスモーダルセマンティクスをよりよく捉えるために,大規模な事前学習型視覚言語モデルであるCLIPから表現を転送することを提案する。
効率的な適応を実現するために、CLIPに組み込まれ、ターゲットタスクに微調整される軽量アダプタモジュールであるUniCrossAdapterを導入する。
論文 参考訳(メタデータ) (2025-03-20T08:28:53Z) - CRRG-CLIP: Automatic Generation of Chest Radiology Reports and Classification of Chest Radiographs [2.1711205684359247]
CRRG-CLIPモデル(CRRG-CLIP Model)は、自動レポート生成とラジオグラフ分類のためのエンドツーエンドモデルである。
生成モジュールは、Radiograph内の解剖学的領域を識別するためにFaster R-CNN、キー領域を選択するバイナリ分類器、セマンティックコヒーレントレポートを生成するためにGPT-2を使用する。
分類モジュールは教師なしのContrastive Language Image Pretraining (CLIP)モデルを使用し、高価なラベル付きデータセットの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T03:07:27Z) - Gla-AI4BioMed at RRG24: Visual Instruction-tuned Adaptation for Radiology Report Generation [21.772106685777995]
胸部X線から放射線学レポートを生成するために,放射線学に焦点を当てた視覚言語モデルを提案する。
我々のモデルは、画像エンコーダとVicuna-7Bアーキテクチャに基づく微調整LDMを組み合わせることで、顕著な精度で放射線学レポートの異なるセクションを生成することができる。
論文 参考訳(メタデータ) (2024-12-06T11:14:03Z) - PadChest-GR: A Bilingual Chest X-ray Dataset for Grounded Radiology Report Generation [4.925253788789898]
グラウンドドラジオロジーレポート生成(GRRG)は、画像上の個々の所見の局所化を含む。
現在、GRRGモデルをトレーニングするための手動注釈付き胸部X線データセットは存在しない。
CXR画像のGRRGモデルのトレーニングを目的としたPadChest-GR(Grounded-Reporting)というデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-07T19:06:17Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray
Report Generation [3.6664023341224827]
X-REM (Contrastive X-Ray Report Match) は、X-REM (X-REM) という新しい検索方式の放射線学レポート生成モジュールである。
X-REMは、胸部X線画像の類似度を測定するための画像テキストマッチングスコアと、レポート検索のための放射線診断レポートを使用する。
論文 参考訳(メタデータ) (2023-03-29T04:00:47Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Joint Modeling of Chest Radiographs and Radiology Reports for Pulmonary
Edema Assessment [39.60171837961607]
我々は,胸部X線写真から肺浮腫の重症度を評価するために,画像と自由テキストの両方で訓練されたニューラルネットワークモデルを開発した。
実験結果から,共同画像・テキスト表現学習は肺浮腫評価の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2020-08-22T17:28:39Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。