論文の概要: LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies
- arxiv url: http://arxiv.org/abs/2410.04749v1
- Date: Mon, 7 Oct 2024 04:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:07:46.547393
- Title: LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies
- Title(参考訳): LLaVAはさらなる知識を必要としている: 胸部病理の解説のための知識グラフ付き検索用自然言語生成
- Authors: Ameer Hamza, Abdullah, Yong Hyun Ahn, Sungyoung Lee, Seong Tae Kim,
- Abstract要約: 医用画像のための自然言語記述(NLE)を生成するために,知識グラフ(KG)ベースのデータストアを付加したビジョンランゲージフレームワークを提案する。
本フレームワークでは,生成した説明の精度を向上するだけでなく,直接データ検索を回避してデータのプライバシーを保護できるKGベースの検索機構を採用している。
これらのフレームワークはMIMIC-NLEデータセット上で検証され、最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 3.2221734920470797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating Natural Language Explanations (NLEs) for model predictions on medical images, particularly those depicting thoracic pathologies, remains a critical and challenging task. Existing methodologies often struggle due to general models' insufficient domain-specific medical knowledge and privacy concerns associated with retrieval-based augmentation techniques. To address these issues, we propose a novel Vision-Language framework augmented with a Knowledge Graph (KG)-based datastore, which enhances the model's understanding by incorporating additional domain-specific medical knowledge essential for generating accurate and informative NLEs. Our framework employs a KG-based retrieval mechanism that not only improves the precision of the generated explanations but also preserves data privacy by avoiding direct data retrieval. The KG datastore is designed as a plug-and-play module, allowing for seamless integration with various model architectures. We introduce and evaluate three distinct frameworks within this paradigm: KG-LLaVA, which integrates the pre-trained LLaVA model with KG-RAG; Med-XPT, a custom framework combining MedCLIP, a transformer-based projector, and GPT-2; and Bio-LLaVA, which adapts LLaVA by incorporating the Bio-ViT-L vision model. These frameworks are validated on the MIMIC-NLE dataset, where they achieve state-of-the-art results, underscoring the effectiveness of KG augmentation in generating high-quality NLEs for thoracic pathologies.
- Abstract(参考訳): 医学画像、特に胸部病理像のモデル予測のための自然言語説明(NLE)の生成は、依然として重要かつ困難な課題である。
既存の方法論は、一般的なモデルでは不十分なドメイン固有の医療知識と、検索ベースの拡張技術に関連するプライバシーに関する懸念のために、しばしば苦労する。
これらの問題に対処するため、我々は知識グラフ(KG)ベースのデータストアを付加した新しいビジョン・ランゲージ・フレームワークを提案する。
本フレームワークでは,生成した説明の精度を向上するだけでなく,直接データ検索を回避してデータのプライバシーを保護できるKGベースの検索機構を採用している。
KG データストアはプラグアンドプレイモジュールとして設計されており、様々なモデルアーキテクチャとのシームレスな統合を可能にする。
KG-LLaVAは学習済みのLLaVAモデルとKG-RAGを統合し,Med-XPTはトランスフォーマーベースのプロジェクタであるMedCLIPとGPT-2を組み合わせたカスタムフレームワーク,Bio-LLaVAはバイオ-ViT-Lビジョンモデルを取り入れてLLaVAに適応する。
これらのフレームワークはMIMIC-NLEデータセットで検証され、胸椎疾患に対する高品質NLEの生成におけるKG増強の有効性を裏付ける。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文 参考訳(メタデータ) (2024-07-13T22:45:46Z) - REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records
Analysis via Large Language Models [19.62552013839689]
既存のモデルは、しばしば臨床上の課題に医学的文脈を欠いているため、外部知識の組み入れが促される。
本稿では、マルチモーダルEHR表現を強化するためのRAG(Retrieval-Augmented Generation)駆動フレームワークREALMを提案する。
MIMIC-III 死亡率と可読化タスクに関する実験は,ベースラインよりもREALM フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-10T18:27:28Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Biomedical knowledge graph-optimized prompt generation for large language models [1.6658478064349376]
大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。
本稿では,トークン最適化およびロバストな知識グラフに基づくRetrieval Augmented Generationフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-11-29T03:07:00Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。