Fugu-MT 論文翻訳(概要): Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training

論文の概要: Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training

arxiv url: http://arxiv.org/abs/2405.19654v1
Date: Thu, 30 May 2024 03:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 18:26:21.606136
Title: Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training
Title（参考訳）: 医療用マルチモーダルプレトレーニングにおける空間情報と時間情報のアンロック
Authors: Jinxia Yang, Bing Su, Wayne Xin Zhao, Ji-Rong Wen,
Abstract要約: 我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
参考スコア（独自算出の注目度）: 99.2891802841936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical vision-language pre-training methods mainly leverage the correspondence between paired medical images and radiological reports. Although multi-view spatial images and temporal sequences of image-report pairs are available in off-the-shelf multi-modal medical datasets, most existing methods have not thoroughly tapped into such extensive supervision signals. In this paper, we introduce the Med-ST framework for fine-grained spatial and temporal modeling to exploit information from multiple spatial views of chest radiographs and temporal historical records. For spatial modeling, Med-ST employs the Mixture of View Expert (MoVE) architecture to integrate different visual features from both frontal and lateral views. To achieve a more comprehensive alignment, Med-ST not only establishes the global alignment between whole images and texts but also introduces modality-weighted local alignment between text tokens and spatial regions of images. For temporal modeling, we propose a novel cross-modal bidirectional cycle consistency objective by forward mapping classification (FMC) and reverse mapping regression (RMR). By perceiving temporal information from simple to complex, Med-ST can learn temporal semantics. Experimental results across four distinct tasks demonstrate the effectiveness of Med-ST, especially in temporal classification tasks. Our code and model are available at https://github.com/SVT-Yang/MedST.
Abstract（参考訳）: 医用視覚言語による事前訓練法は, 主に, 医用画像と放射線学的報告の対応を利用する。市販のマルチモーダル医療データセットでは,多視点空間画像と画像報告ペアの時間的シーケンスが利用できるが,既存の手法の多くは,このような広範囲な監視信号に完全には適用されていない。本稿では,胸部X線写真と時間的歴史的記録の複数の空間的視点から情報を利用するための,微細な空間的・時間的モデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。より包括的なアライメントを実現するため、Med-STは画像全体とテキスト間のグローバルアライメントを確立するだけでなく、テキストトークンと画像空間領域間のモダリティ重み付き局所アライメントを導入する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。時間的情報を単純から複雑に知覚することで、Med-STは時間的意味論を学ぶことができる。 4つの異なるタスクにまたがる実験結果は、特に時間的分類タスクにおいて、Med-STの有効性を示す。私たちのコードとモデルはhttps://github.com/SVT-Yang/MedST.comで公開されています。

関連論文リスト

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging [6.520674045578402]
本稿では,Voxelディスクリプタとして事前訓練された潜伏医療拡散モデルのマルチスケール特徴を利用する,トレーニングフリーな3D対応フレームワークであるMedDIFTを提案する。公開されている肺CTデータセットでは、MedDIFTは最先端のUniGradICONモデルに匹敵する対応精度を達成している。
論文参考訳（メタデータ） (2025-12-05T09:53:07Z)
M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文参考訳（メタデータ） (2025-09-01T10:59:39Z)
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。 MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文参考訳（メタデータ） (2025-05-17T06:42:28Z)
Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文参考訳（メタデータ） (2025-04-22T14:17:51Z)
RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。 RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文参考訳（メタデータ） (2025-03-06T17:43:03Z)
Libra: Leveraging Temporal Images for Biomedical Radiology Analysis [21.772106685777995]
放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。 Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。
論文参考訳（メタデータ） (2024-11-28T21:07:22Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文参考訳（メタデータ） (2024-01-02T19:51:49Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文参考訳（メタデータ） (2023-06-04T17:39:08Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。