論文の概要: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- arxiv url: http://arxiv.org/abs/2411.19378v1
- Date: Thu, 28 Nov 2024 21:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.88054
- Title: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- Title(参考訳): Libra: バイオメディカルラジオロジー解析のための時間的画像の活用
- Authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho,
- Abstract要約: 放射線医学報告生成(RRG)は、医用画像の徹底的な理解を必要とするため、難しい課題である。
時間画像を用いたCXRレポート生成に適した時間認識MLLMであるLibraを紹介する。
- 参考スコア(独自算出の注目度): 21.772106685777995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation (RRG) is a challenging task, as it requires a thorough understanding of medical images, integration of multiple temporal inputs, and accurate report generation. Effective interpretation of medical images, such as chest X-rays (CXRs), demands sophisticated visual-language reasoning to map visual findings to structured reports. Recent studies have shown that multimodal large language models (MLLMs) can acquire multimodal capabilities by aligning with pre-trained vision encoders. However, current approaches predominantly focus on single-image analysis or utilise rule-based symbolic processing to handle multiple images, thereby overlooking the essential temporal information derived from comparing current images with prior ones. To overcome this critical limitation, we introduce Libra, a temporal-aware MLLM tailored for CXR report generation using temporal images. Libra integrates a radiology-specific image encoder with a MLLM and utilises a novel Temporal Alignment Connector to capture and synthesise temporal information of images across different time points with unprecedented precision. Extensive experiments show that Libra achieves new state-of-the-art performance among the same parameter scale MLLMs for RRG tasks on the MIMIC-CXR. Specifically, Libra improves the RadCliQ metric by 12.9% and makes substantial gains across all lexical metrics compared to previous models.
- Abstract(参考訳): 放射線医学報告生成(RRG)は、医用画像の徹底的な理解、複数の時間入力の統合、正確なレポート生成を必要とするため、難しい課題である。
胸部X線(CXR)などの医用画像の効果的な解釈は、視覚所見を構造化されたレポートにマッピングするために洗練された視覚言語推論を要求する。
近年,マルチモーダル大規模言語モデル (MLLM) は,事前学習した視覚エンコーダと整合してマルチモーダル能力を得ることができることが示されている。
しかし、現在のアプローチは、主に単一画像解析やルールベースのシンボリック処理を利用して複数の画像を処理するため、現在の画像とそれ以前の画像を比較することから得られる重要な時間的情報を見越すことに重点を置いている。
この限界を克服するために、時間画像を用いたCXRレポート生成に適した時間認識MLLMであるLibraを導入する。
Libraは、放射線学固有の画像エンコーダをMLLMと統合し、新しい時間アライメントコネクタを使用して、異なる時間点にわたる画像の時間情報を前例のない精度でキャプチャし、合成する。
MIMIC-CXRにおけるRRGタスクのパラメータスケールMLLMにおいて,Libraが新たな最先端性能を実現していることを示す。
具体的には、LibraはRadCliQのメトリックを12.9%改善し、以前のモデルと比較してすべての語彙のメトリクスで大幅に向上した。
関連論文リスト
- MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。
そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。
我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文 参考訳(メタデータ) (2025-04-29T01:26:02Z) - SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI [6.714491893348051]
画像とそれに対応する放射線学的所見の対比学習を用いて, マルチモデル頭部MRIの基礎モデルを構築することを提案する。
提案した類似性強化コントラスト言語画像事前学習(SeLIP)は,より有用な特徴を効果的に抽出することができる。
論文 参考訳(メタデータ) (2025-03-25T16:09:45Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [48.21287619304126]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation [15.257119888131609]
胸部X線レポート生成を容易にするために,MLRGと呼ばれるマルチビュー縦断データを用いたコントラスト学習を提案する。
具体的には、現在の多視点画像からの空間情報と、長手データからの時間情報を統合する多視点縦コントラスト学習手法を提案する。
本稿では,患者固有の事前知識の欠如に対処するトークン化不在符号化手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T12:59:04Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。
このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。
M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文 参考訳(メタデータ) (2024-08-29T02:12:58Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Generalized Implicit Neural Representation for Efficient MRI Parallel Imaging Reconstruction [16.63720411275398]
本研究では、MRI PI再構成のための一般化暗黙的神経表現(INR)に基づくフレームワークを提案する。
フレームワークのINRモデルは、完全にサンプリングされたMR画像を空間座標と以前のボクセル固有の特徴の連続関数として扱う。
公開されているMRIデータセットの実験は、複数の加速度因子で画像を再構成する際の提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-12T09:07:03Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。