Fugu-MT 論文翻訳(概要): Libra: Leveraging Temporal Images for Biomedical Radiology Analysis

論文の概要: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis

arxiv url: http://arxiv.org/abs/2411.19378v2
Date: Sun, 16 Feb 2025 17:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.184442
Title: Libra: Leveraging Temporal Images for Biomedical Radiology Analysis
Title（参考訳）: Libra: バイオメディカルラジオロジー解析のための時間的画像の活用
Authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho,
Abstract要約: 放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。 Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。
参考スコア（独自算出の注目度）: 21.772106685777995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Radiology report generation (RRG) requires advanced medical image analysis, effective temporal reasoning, and accurate text generation. While multimodal large language models (MLLMs) align with pre-trained vision encoders to enhance visual-language understanding, most existing methods rely on single-image analysis or rule-based heuristics to process multiple images, failing to fully leverage temporal information in multi-modal medical datasets. In this paper, we introduce Libra, a temporal-aware MLLM tailored for chest X-ray report generation. Libra combines a radiology-specific image encoder with a novel Temporal Alignment Connector (TAC), designed to accurately capture and integrate temporal differences between paired current and prior images. Extensive experiments on the MIMIC-CXR dataset demonstrate that Libra establishes a new state-of-the-art benchmark among similarly scaled MLLMs, setting new standards in both clinical relevance and lexical accuracy.
Abstract（参考訳）: 放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。マルチモーダル大言語モデル(MLLM)は、視覚言語理解を強化するために事前訓練された視覚エンコーダと協調するが、既存のほとんどの手法は、複数の画像を処理するために単一画像解析やルールベースのヒューリスティックに依存しており、マルチモーダル医療データセットの時間情報を完全に活用できない。本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。 Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。 MIMIC-CXRデータセットに関する大規模な実験は、Libraが同様のスケールのMLLMに新しい最先端のベンチマークを確立し、臨床的妥当性と語彙的正確性の両方において新しい標準を設定していることを示している。

関連論文リスト

MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文参考訳（メタデータ） (2025-04-29T01:26:02Z)
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI [6.714491893348051]
画像とそれに対応する放射線学的所見の対比学習を用いて, マルチモデル頭部MRIの基礎モデルを構築することを提案する。提案した類似性強化コントラスト言語画像事前学習(SeLIP)は,より有用な特徴を効果的に抽出することができる。
論文参考訳（メタデータ） (2025-03-25T16:09:45Z)
RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [48.21287619304126]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。 RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文参考訳（メタデータ） (2025-03-06T17:43:03Z)
Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation [15.257119888131609]
胸部X線レポート生成を容易にするために,MLRGと呼ばれるマルチビュー縦断データを用いたコントラスト学習を提案する。具体的には、現在の多視点画像からの空間情報と、長手データからの時間情報を統合する多視点縦コントラスト学習手法を提案する。本稿では,患者固有の事前知識の欠如に対処するトークン化不在符号化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T12:59:04Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。 M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文参考訳（メタデータ） (2024-08-29T02:12:58Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-01-03T07:54:13Z)
VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文参考訳（メタデータ） (2024-01-02T19:51:49Z)
Generalized Implicit Neural Representation for Efficient MRI Parallel Imaging Reconstruction [16.63720411275398]
本研究では、MRI PI再構成のための一般化暗黙的神経表現(INR)に基づくフレームワークを提案する。フレームワークのINRモデルは、完全にサンプリングされたMR画像を空間座標と以前のボクセル固有の特徴の連続関数として扱う。公開されているMRIデータセットの実験は、複数の加速度因子で画像を再構成する際の提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-09-12T09:07:03Z)
On Sensitivity and Robustness of Normalization Schemes to Input Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。 DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文参考訳（メタデータ） (2023-06-23T03:09:03Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。