論文の概要: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- arxiv url: http://arxiv.org/abs/2411.19378v1
- Date: Thu, 28 Nov 2024 21:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:26.838086
- Title: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
- Title(参考訳): Libra: バイオメディカルラジオロジー解析のための時間的画像の活用
- Authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho,
- Abstract要約: 放射線医学報告生成(RRG)は、医用画像の徹底的な理解を必要とするため、難しい課題である。
時間画像を用いたCXRレポート生成に適した時間認識MLLMであるLibraを紹介する。
- 参考スコア(独自算出の注目度): 21.772106685777995
- License:
- Abstract: Radiology report generation (RRG) is a challenging task, as it requires a thorough understanding of medical images, integration of multiple temporal inputs, and accurate report generation. Effective interpretation of medical images, such as chest X-rays (CXRs), demands sophisticated visual-language reasoning to map visual findings to structured reports. Recent studies have shown that multimodal large language models (MLLMs) can acquire multimodal capabilities by aligning with pre-trained vision encoders. However, current approaches predominantly focus on single-image analysis or utilise rule-based symbolic processing to handle multiple images, thereby overlooking the essential temporal information derived from comparing current images with prior ones. To overcome this critical limitation, we introduce Libra, a temporal-aware MLLM tailored for CXR report generation using temporal images. Libra integrates a radiology-specific image encoder with a MLLM and utilises a novel Temporal Alignment Connector to capture and synthesise temporal information of images across different time points with unprecedented precision. Extensive experiments show that Libra achieves new state-of-the-art performance among the same parameter scale MLLMs for RRG tasks on the MIMIC-CXR. Specifically, Libra improves the RadCliQ metric by 12.9% and makes substantial gains across all lexical metrics compared to previous models.
- Abstract(参考訳): 放射線医学報告生成(RRG)は、医用画像の徹底的な理解、複数の時間入力の統合、正確なレポート生成を必要とするため、難しい課題である。
胸部X線(CXR)などの医用画像の効果的な解釈は、視覚所見を構造化されたレポートにマッピングするために洗練された視覚言語推論を要求する。
近年,マルチモーダル大規模言語モデル (MLLM) は,事前学習した視覚エンコーダと整合してマルチモーダル能力を得ることができることが示されている。
しかし、現在のアプローチは、主に単一画像解析やルールベースのシンボリック処理を利用して複数の画像を処理するため、現在の画像とそれ以前の画像を比較することから得られる重要な時間的情報を見越すことに重点を置いている。
この限界を克服するために、時間画像を用いたCXRレポート生成に適した時間認識MLLMであるLibraを導入する。
Libraは、放射線学固有の画像エンコーダをMLLMと統合し、新しい時間アライメントコネクタを使用して、異なる時間点にわたる画像の時間情報を前例のない精度でキャプチャし、合成する。
MIMIC-CXRにおけるRRGタスクのパラメータスケールMLLMにおいて,Libraが新たな最先端性能を実現していることを示す。
具体的には、LibraはRadCliQのメトリックを12.9%改善し、以前のモデルと比較してすべての語彙のメトリクスで大幅に向上した。
関連論文リスト
- M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。
このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。
M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文 参考訳(メタデータ) (2024-08-29T02:12:58Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Generalized Implicit Neural Representation for Efficient MRI Parallel Imaging Reconstruction [16.63720411275398]
本研究では、MRI PI再構成のための一般化暗黙的神経表現(INR)に基づくフレームワークを提案する。
フレームワークのINRモデルは、完全にサンプリングされたMR画像を空間座標と以前のボクセル固有の特徴の連続関数として扱う。
公開されているMRIデータセットの実験は、複数の加速度因子で画像を再構成する際の提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-12T09:07:03Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。