論文の概要: R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2508.03426v1
- Date: Tue, 05 Aug 2025 13:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.975334
- Title: R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation
- Title(参考訳): R2GenKG:LLMに基づく放射線学レポート作成のための階層的マルチモーダル知識グラフ
- Authors: Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun,
- Abstract要約: まず, GPT-4o を用いた臨床報告に基づいて, 大規模マルチモーダル医療知識グラフを構築した。
入力X線画像に対しては、Swin-Transformerを用いて視覚特徴を抽出し、クロスアテンションを用いて知識と対話する。
最後に,言語記述に意味知識グラフ,X線画像,疾患認識型視覚トークンをマッピングするために,大規模言語モデルを採用する。
- 参考スコア(独自算出の注目度): 6.887661152518633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entities, 3 kinds of relations, 37424 triples, and 6943 disease-aware vision tokens for the CheXpert Plus dataset. Then, we sample it to obtain multi-granularity semantic graphs and use an R-GCN encoder for feature extraction. For the input X-ray image, we adopt the Swin-Transformer to extract the vision features and interact with the knowledge using cross-attention. The vision tokens are fed into a Q-former and retrieved the disease-aware vision tokens using another cross-attention. Finally, we adopt the large language model to map the semantic knowledge graph, input X-ray image, and disease-aware vision tokens into language descriptions. Extensive experiments on multiple datasets fully validated the effectiveness of our proposed knowledge graph and X-ray report generation framework. The source code of this paper will be released on https://github.com/Event-AHU/Medical_Image_Analysis.
- Abstract(参考訳): X線医療レポート生成は、医療における人工知能の重要な応用の1つである。
大規模基盤モデルのサポートにより,医療報告の質は大幅に向上した。
しかし、幻覚や病気の診断能力の低下といった課題は今も続いている。
本稿ではまず,GPT-4oを用いた臨床報告に基づいて,大規模マルチモーダル医療知識グラフ(M3KG)を構築した。
これには、CheXpert Plusデータセット用の2477のエンティティ、3種類のリレーション、37424のトリプル、6943の疾患対応視覚トークンが含まれている。
次に,多粒度セマンティックグラフを取得し,R-GCNエンコーダを用いて特徴抽出を行う。
入力X線画像に対しては、Swin-Transformerを用いて視覚特徴を抽出し、クロスアテンションを用いて知識と対話する。
ビジョントークンはQ-formerに入力され、別のクロスアテンションを使用して疾患対応のビジョントークンを検索する。
最後に,言語記述に意味知識グラフ,X線画像,疾患認識型視覚トークンをマッピングするために,大規模言語モデルを採用する。
複数のデータセットに対する大規模な実験により,提案した知識グラフとX線レポート生成フレームワークの有効性が完全に検証された。
この論文のソースコードはhttps://github.com/Event-AHU/Medical_Image_Analysis.comで公開される。
関連論文リスト
- Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval-Augmented Generation [15.468023420115431]
MLLMは、検索強化された生成フレームワークであるVisual RAGをサポートするためにどのように拡張されるかを示す。
MIMIC-CXR胸部X線レポート生成とマルチケア医療画像キャプション生成データセットについて,ビジュアルRAGが実体探索の精度を向上させることを示す。
論文 参考訳(メタデータ) (2025-02-20T20:55:34Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - DeViDe: Faceted medical knowledge for improved medical vision-language pre-training [1.6567372257085946]
胸部X線に対する視覚言語による事前訓練は、主にペアのX線写真とラジオグラフィーレポートを活用することで大きな進歩を遂げた。
オープンウェブからの無線画像記述を利用するトランスフォーマーベースのDeViDeを提案する。
DeViDeは知識強化された視覚言語アライメントの3つの重要な特徴を取り入れている。
ゼロショット設定では、DeViDeは外部データセットの完全な教師付きモデルと互換性があり、3つの大規模データセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-04-04T17:40:06Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - XRayGAN: Consistency-preserving Generation of X-ray Images from
Radiology Reports [19.360283053558604]
我々は,X線画像から高精細・高精細・高精細・高精細なX線画像を生成する手法を開発した。
この研究は、放射線学報告から一貫した高解像度のX線画像を生成する最初のものである。
論文 参考訳(メタデータ) (2020-06-17T05:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。