論文の概要: Semantic Alignment of Unimodal Medical Text and Vision Representations
- arxiv url: http://arxiv.org/abs/2503.04478v1
- Date: Thu, 06 Mar 2025 14:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:22.747694
- Title: Semantic Alignment of Unimodal Medical Text and Vision Representations
- Title(参考訳): 一様医用テキストのセマンティックアライメントと視覚表現
- Authors: Maxime Di Folco, Emily Chan, Marta Hasny, Cosmin I. Bercea, Julia A. Schnabel,
- Abstract要約: 汎用AIモデルは、セマンティックな関連データを処理する際に、同様の潜在空間を示すことができる。
我々は、汎用AIを専門の医療知識で橋渡しできるセマンティックアライメントについて述べる。
モダリティ間のセマンティックアライメントを利用する一元視覚エンコーダの新しいゼロショット分類手法を提案する。
- 参考スコア(独自算出の注目度): 1.8848810602776873
- License:
- Abstract: General-purpose AI models, particularly those designed for text and vision, demonstrate impressive versatility across a wide range of deep-learning tasks. However, they often underperform in specialised domains like medical imaging, where domain-specific solutions or alternative knowledge transfer approaches are typically required. Recent studies have noted that general-purpose models can exhibit similar latent spaces when processing semantically related data, although this alignment does not occur naturally. Building on this insight, it has been shown that applying a simple transformation - at most affine - estimated from a subset of semantically corresponding samples, known as anchors, enables model stitching across diverse training paradigms, architectures, and modalities. In this paper, we explore how semantic alignment - estimating transformations between anchors - can bridge general-purpose AI with specialised medical knowledge. Using multiple public chest X-ray datasets, we demonstrate that model stitching across model architectures allows general models to integrate domain-specific knowledge without additional training, leading to improved performance on medical tasks. Furthermore, we introduce a novel zero-shot classification approach for unimodal vision encoders that leverages semantic alignment across modalities. Our results show that our method not only outperforms general multimodal models but also approaches the performance levels of fully trained, medical-specific multimodal solutions
- Abstract(参考訳): 汎用AIモデル、特にテキストとビジョン用に設計されたモデルは、広範囲のディープラーニングタスクにおいて、見事な汎用性を示している。
しかし、医療画像のような特殊なドメインでは、ドメイン固有のソリューションや代替の知識伝達アプローチが通常必要となるため、パフォーマンスが劣ることが多い。
近年の研究では、このアライメントは自然に発生しないものの、意味的に関連したデータを処理する際に、汎用モデルは類似した潜在空間を表現できることが指摘されている。
この知見に基づいて、単純な変換(少なくともアフィン)を適用することは、アンカーとして知られる意味的に対応するサンプルのサブセットから推定され、多様なトレーニングパラダイム、アーキテクチャ、モダリティをまたいだモデル縫合を可能にすることが示されている。
本稿では,アンカー間の変換を推定するセマンティックアライメント(セマンティックアライメント)が,医療知識を専門とする汎用AIを橋渡しする方法について検討する。
複数の公開胸部X線データセットを用いて、モデルアーキテクチャ間のモデルを縫合することで、一般モデルが追加のトレーニングなしでドメイン固有の知識を統合できることを実証し、医療タスクのパフォーマンスを向上する。
さらに,モダリティ間のセマンティックアライメントを利用した一方向視覚エンコーダのゼロショット分類手法を提案する。
以上の結果から,本手法は一般的なマルチモーダルモデルよりも優れるだけでなく,完全に訓練された医療用マルチモーダルソリューションの性能レベルにもアプローチできることが示唆された。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Perspectives: Comparison of Deep Learning Segmentation Models on Biophysical and Biomedical Data [0.0]
畳み込みニューラルネットワーク、U-Net、ビジョントランスフォーマー、ビジョン状態空間モデルを比較した。
そこで我々は,各モデルが排他的である最適条件を決定するための基準を確立する。
論文 参考訳(メタデータ) (2024-08-14T19:49:19Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Multi-domain improves out-of-distribution and data-limited scenarios for medical image analysis [2.315156126698557]
特殊ドメインの代わりに複数のドメインを組み込んだモデルを用いることで、特殊モデルで観測される制限が大幅に軽減されることを示す。
臓器認識では、従来の特殊なモデルと比較して、マルチドメインモデルは精度を最大8%向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T16:07:23Z) - A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision [17.875098424936542]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから38個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Domain Generalizer: A Few-shot Meta Learning Framework for Domain
Generalization in Medical Imaging [23.414905586808874]
モデルに依存しないメタラーニングフレームワークをベースとした領域一般化手法をバイオメディカルイメージングに適用する。
ドメインに依存しない特徴表現を学習し、未知のテスト分布に対するモデルの一般化を改善する。
本手法は, 画像取得プロトコル, 解剖学, スキャン対象地域, 画像解析対象地域, 画像解析対象地域, 画像解析対象地域, 画像解析対象地域, 画像解析対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断対象地域, 画像診断
論文 参考訳(メタデータ) (2020-08-18T03:35:56Z) - Shape-aware Meta-learning for Generalizing Prostate MRI Segmentation to
Unseen Domains [68.73614619875814]
前立腺MRIのセグメント化におけるモデル一般化を改善するために,新しい形状認識メタラーニング手法を提案する。
実験結果から,本手法は未確認領域の6つの設定すべてにおいて,最先端の一般化手法を一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-04T07:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。