Fugu-MT 論文翻訳(概要): MedRG: Medical Report Grounding with Multi-modal Large Language Model

論文の概要: MedRG: Medical Report Grounding with Multi-modal Large Language Model

arxiv url: http://arxiv.org/abs/2404.06798v1
Date: Wed, 10 Apr 2024 07:41:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 15:10:01.586515
Title: MedRG: Medical Report Grounding with Multi-modal Large Language Model
Title（参考訳）: MedRG:マルチモーダル大言語モデルによる医療報告
Authors: Ke Zou, Yang Bai, Zhihao Chen, Yang Zhou, Yidi Chen, Kai Ren, Meng Wang, Xuedong Yuan, Xiaojing Shen, Huazhu Fu,
Abstract要約: Medical Report Grounding (MedRG)は、キーフレーズを予測するためにマルチモーダルな大規模言語モデルを利用するエンドツーエンドのソリューションである。 MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。
参考スコア（独自算出の注目度）: 42.04042642085121
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical Report Grounding is pivotal in identifying the most relevant regions in medical images based on a given phrase query, a critical aspect in medical image analysis and radiological diagnosis. However, prevailing visual grounding approaches necessitate the manual extraction of key phrases from medical reports, imposing substantial burdens on both system efficiency and physicians. In this paper, we introduce a novel framework, Medical Report Grounding (MedRG), an end-to-end solution for utilizing a multi-modal Large Language Model to predict key phrase by incorporating a unique token, BOX, into the vocabulary to serve as an embedding for unlocking detection capabilities. Subsequently, the vision encoder-decoder jointly decodes the hidden embedding and the input medical image, generating the corresponding grounding box. The experimental results validate the effectiveness of MedRG, surpassing the performance of the existing state-of-the-art medical phrase grounding methods. This study represents a pioneering exploration of the medical report grounding task, marking the first-ever endeavor in this domain.
Abstract（参考訳）: 医療報告基盤は、所定のフレーズクエリー、医療画像分析および放射線診断における重要な側面に基づいて、医療画像の最も関連性の高い領域を特定する上で重要である。しかし, 医報から重要なフレーズを手作業で抽出する必要があるため, システム効率と医師の双方にかなりの負担がかかる。本稿では,MedRG(Messical Report Grounding)という,単一トークンであるBOXを語彙に組み込んでキーフレーズを予測し,検出機能をアンロックするエンド・ツー・エンドのソリューションを提案する。その後、ビジョンエンコーダ−デコーダは、隠された埋め込みと入力された医療画像とを共同で復号し、対応する接地ボックスを生成する。 MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。本研究は, 医療報告基盤業務の先駆的な探索であり, この領域における最初の取り組みである。

関連論文リスト

MediSee: Reasoning-based Pixel-level Perception in Medical Images [6.405810587061276]
MedSD(Medical Reasoning and Detection)を導入した新しい医療ビジョンタスクについて紹介する。 MedSDの目的は、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトのバウンディングボックスを生成することである。医学的推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるメディセーを提案する。
論文参考訳（メタデータ） (2025-04-15T09:28:53Z)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文参考訳（メタデータ） (2024-10-31T11:07:26Z)
Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文参考訳（メタデータ） (2024-10-24T02:55:41Z)
MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文参考訳（メタデータ） (2024-09-04T03:46:17Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Grounded Knowledge-Enhanced Medical Vision-Language Pre-training for Chest X-Ray [12.239249676716247]
医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。胸部X線に対する知識強化型医療ビジョン言語事前学習フレームワークを提案する。以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
論文参考訳（メタデータ） (2024-04-23T05:16:24Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Medical Phrase Grounding with Region-Phrase Context Contrastive Alignment [35.56193044201645]
医療用語の接頭辞は、特定の医学的発見を記述したフレーズクエリーを考慮し、医療画像の最も関連性の高い領域を特定することを目的としている。本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。 MedRPGにより、より優れた地域フレーズ対応によるニュアンスド医療所見の発見を可能にするため、さらにTri-attention Context contrastive alignment (TaCo)を提案する。
論文参考訳（メタデータ） (2023-03-14T03:57:16Z)
MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology [40.52487429030841]
医用医用視覚言語事前訓練を専門知識と組み合わせて行うことを検討する。まず, 生の報告を直接処理する既存の作業とは異なり, 医療関連情報を抽出するために, 新規な三重項抽出モジュールを採用する。第2に,医療分野における豊富な知識を活用するために,知識ベースを問合せすることで,エンティティ翻訳を伴う新しい三重項符号化モジュールを提案する。第3に、トランスフォーマーを用いた融合モデルを用いて、画像パッチレベルでの実体記述と視覚信号との空間的整合を図り、診断を可能にすることを提案する。
論文参考訳（メタデータ） (2023-01-05T18:55:09Z)
MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。 MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文参考訳（メタデータ） (2020-10-15T03:34:33Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。