論文の概要: LaB-RAG: Label Boosted Retrieval Augmented Generation for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2411.16523v1
- Date: Mon, 25 Nov 2024 16:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:03.387115
- Title: LaB-RAG: Label Boosted Retrieval Augmented Generation for Radiology Report Generation
- Title(参考訳): LaB-RAG:ラジオロジーレポート生成のためのレトリーバル増強ジェネレーション
- Authors: Steven Song, Anirudh Subramanyam, Irene Madejski, Robert L. Grossman,
- Abstract要約: 本稿では,RaB-RAG (Label Boosted Retrieval Augmented Generation) を提案する。
我々は,LaB-RAGが他の検索ベースRRG法と比較して,自然言語とラジオロジー言語で優れた結果が得られることを示す。
我々は、一般的なRRG測度の使用を批判し、真のデータ推論なしで結果が人工的に膨らむことができると主張している。
- 参考スコア(独自算出の注目度): 1.1029725477806065
- License:
- Abstract: In the current paradigm of image captioning, deep learning models are trained to generate text from image embeddings of latent features. We challenge the assumption that these latent features ought to be high-dimensional vectors which require model fine tuning to handle. Here we propose Label Boosted Retrieval Augmented Generation (LaB-RAG), a text-based approach to image captioning that leverages image descriptors in the form of categorical labels to boost standard retrieval augmented generation (RAG) with pretrained large language models (LLMs). We study our method in the context of radiology report generation (RRG), where the task is to generate a clinician's report detailing their observations from a set of radiological images, such as X-rays. We argue that simple linear classifiers over extracted image embeddings can effectively transform X-rays into text-space as radiology-specific labels. In combination with standard RAG, we show that these derived text labels can be used with general-domain LLMs to generate radiology reports. Without ever training our generative language model or image feature encoder models, and without ever directly "showing" the LLM an X-ray, we demonstrate that LaB-RAG achieves better results across natural language and radiology language metrics compared with other retrieval-based RRG methods, while attaining competitive results compared to other fine-tuned vision-language RRG models. We further present results of our experiments with various components of LaB-RAG to better understand our method. Finally, we critique the use of a popular RRG metric, arguing it is possible to artificially inflate its results without true data-leakage.
- Abstract(参考訳): 画像キャプションの現在のパラダイムでは、深層学習モデルは、潜伏した特徴のイメージ埋め込みからテキストを生成するように訓練されている。
これらの潜在機能はモデル微調整を必要とする高次元ベクトルであるべきだという仮定に挑戦する。
本稿では、画像キャプションに対するテキストベースのアプローチであるLaB-RAG(Label Boosted Retrieval Augmented Generation)を提案する。
本研究の目的は,X線などの放射線画像の集合から,臨床医の報告を生成することである。
抽出した画像埋め込みに対する単純な線形分類器は、X線をラジオロジー固有のラベルとしてテキスト空間に効果的に変換できると主張している。
標準RAGと組み合わせることで,これらのテキストラベルを汎用LLMと組み合わせてラジオグラフィーレポートを生成することができることを示す。
生成言語モデルや画像特徴エンコーダモデルをトレーニングすることなく、LLMをX線で直接"ショイング"することなく、LaB-RAGが他の検索ベースRRG法と比較して、自然言語およびラジオロジー言語メトリクスでより良い結果を得る一方で、他の微調整された視覚言語RRGモデルと比較して、競争力のある結果が得られることを示した。
さらに,LaB-RAGの各種成分を用いた実験結果について報告する。
最後に、一般的なRRG測定値の使用を批判し、真のデータ推論なしで人工的に結果のインフレーションを行うことが可能であると主張した。
関連論文リスト
- PadChest-GR: A Bilingual Chest X-ray Dataset for Grounded Radiology Report Generation [4.925253788789898]
グラウンドドラジオロジーレポート生成(GRRG)は、画像上の個々の所見の局所化を含む。
現在、GRRGモデルをトレーニングするための手動注釈付き胸部X線データセットは存在しない。
CXR画像のGRRGモデルのトレーニングを目的としたPadChest-GR(Grounded-Reporting)というデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-07T19:06:17Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray
Report Generation [3.6664023341224827]
X-REM (Contrastive X-Ray Report Match) は、X-REM (X-REM) という新しい検索方式の放射線学レポート生成モジュールである。
X-REMは、胸部X線画像の類似度を測定するための画像テキストマッチングスコアと、レポート検索のための放射線診断レポートを使用する。
論文 参考訳(メタデータ) (2023-03-29T04:00:47Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Joint Modeling of Chest Radiographs and Radiology Reports for Pulmonary
Edema Assessment [39.60171837961607]
我々は,胸部X線写真から肺浮腫の重症度を評価するために,画像と自由テキストの両方で訓練されたニューラルネットワークモデルを開発した。
実験結果から,共同画像・テキスト表現学習は肺浮腫評価の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2020-08-22T17:28:39Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。