論文の概要: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- arxiv url: http://arxiv.org/abs/2411.19378v2
- Date: Sun, 16 Feb 2025 17:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:52.910416
- Title: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- Title(参考訳): Libra: バイオメディカルラジオロジー解析のための時間的画像の活用
- Authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho,
- Abstract要約: 放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。
本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。
Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。
- 参考スコア(独自算出の注目度): 21.772106685777995
- License:
- Abstract: Radiology report generation (RRG) requires advanced medical image analysis, effective temporal reasoning, and accurate text generation. While multimodal large language models (MLLMs) align with pre-trained vision encoders to enhance visual-language understanding, most existing methods rely on single-image analysis or rule-based heuristics to process multiple images, failing to fully leverage temporal information in multi-modal medical datasets. In this paper, we introduce Libra, a temporal-aware MLLM tailored for chest X-ray report generation. Libra combines a radiology-specific image encoder with a novel Temporal Alignment Connector (TAC), designed to accurately capture and integrate temporal differences between paired current and prior images. Extensive experiments on the MIMIC-CXR dataset demonstrate that Libra establishes a new state-of-the-art benchmark among similarly scaled MLLMs, setting new standards in both clinical relevance and lexical accuracy.
- Abstract(参考訳): 放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。
マルチモーダル大言語モデル(MLLM)は、視覚言語理解を強化するために事前訓練された視覚エンコーダと協調するが、既存のほとんどの手法は、複数の画像を処理するために単一画像解析やルールベースのヒューリスティックに依存しており、マルチモーダル医療データセットの時間情報を完全に活用できない。
本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。
Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。
MIMIC-CXRデータセットに関する大規模な実験は、Libraが同様のスケールのMLLMに新しい最先端のベンチマークを確立し、臨床的妥当性と語彙的正確性の両方において新しい標準を設定していることを示している。
関連論文リスト
- M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。
このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。
M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文 参考訳(メタデータ) (2024-08-29T02:12:58Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Generalized Implicit Neural Representation for Efficient MRI Parallel Imaging Reconstruction [16.63720411275398]
本研究では、MRI PI再構成のための一般化暗黙的神経表現(INR)に基づくフレームワークを提案する。
フレームワークのINRモデルは、完全にサンプリングされたMR画像を空間座標と以前のボクセル固有の特徴の連続関数として扱う。
公開されているMRIデータセットの実験は、複数の加速度因子で画像を再構成する際の提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-12T09:07:03Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。