Fugu-MT 論文翻訳(概要): MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning

論文の概要: MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning

arxiv url: http://arxiv.org/abs/2402.02045v1
Date: Sat, 3 Feb 2024 05:48:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 22:42:23.504319
Title: MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning
Title（参考訳）: MLIP:ダイバージェンスエンコーダと知識誘導型コントラスト学習による医用視覚表現の強化
Authors: Zhe Li, Laurence T. Yang, Bocheng Ren, Xin Nie, Zhangyang Gao, Cheng Tan, Stan Z. Li
Abstract要約: 本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
参考スコア（独自算出の注目度）: 48.97640824497327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The scarcity of annotated data has sparked significant interest in unsupervised pre-training methods that leverage medical reports as auxiliary signals for medical visual representation learning. However, existing research overlooks the multi-granularity nature of medical visual representation and lacks suitable contrastive learning techniques to improve the models' generalizability across different granularities, leading to the underutilization of image-text information. To address this, we propose MLIP, a novel framework leveraging domain-specific medical knowledge as guiding signals to integrate language information into the visual domain through image-text contrastive learning. Our model includes global contrastive learning with our designed divergence encoder, local token-knowledge-patch alignment contrastive learning, and knowledge-guided category-level contrastive learning with expert knowledge. Experimental evaluations reveal the efficacy of our model in enhancing transfer performance for tasks such as image classification, object detection, and semantic segmentation. Notably, MLIP surpasses state-of-the-art methods even with limited annotated data, highlighting the potential of multimodal pre-training in advancing medical representation learning.
Abstract（参考訳）: 注釈付きデータの不足は、医療報告を医用視覚表現学習の補助信号として活用する教師なし事前訓練手法に大きな関心を呼んだ。しかし、既存の研究は、医用視覚表現の多粒性の性質を軽視し、異なる粒度にわたるモデルの一般化性を改善するための適切なコントラスト学習技法を欠いているため、画像テキスト情報の未利用につながる。そこで我々は,画像テキストのコントラスト学習を通じて,言語情報を視覚領域に統合するためのガイド信号として,ドメイン固有の医療知識を活用する新しいフレームワークMLIPを提案する。私たちのモデルは、発散エンコーダの設計したグローバルコントラスト学習、局所トークン知識パッチアライメントコントラスト学習、知識誘導カテゴリレベルのコントラスト学習と専門家知識を含む。画像分類,オブジェクト検出,意味セグメンテーションなどのタスクの転送性能向上におけるモデルの有効性を実験的に評価した。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。

関連論文リスト

Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文参考訳（メタデータ） (2025-06-21T08:56:45Z)
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。 MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T21:09:32Z)
Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文参考訳（メタデータ） (2025-02-18T15:30:48Z)
Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文参考訳（メタデータ） (2024-08-13T10:16:10Z)
OPTiML: Dense Semantic Invariance Using Optimal Transport for Self-Supervised Medical Image Representation [6.4136876268620115]
自己教師付き学習(SSL)は、アノテーションなしで学習できることから、医用画像解析の有望な技術として登場した。本稿では, 最適トランスポート(OT)を用いたSSLフレームワークOPTiMLを導入し, 密接なセマンティック不変性と細粒度の詳細を捉える。実験の結果,OPTiMLはすべての評価課題において最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T02:59:48Z)
MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文参考訳（メタデータ） (2024-03-07T16:11:43Z)
Knowledge Boosting: Rethinking Medical Contrastive Vision-Language Pre-Training [6.582001681307021]
知識ブースティング・コントラスト・ビジョン・ランゲージ事前学習フレームワーク(KoBo)を提案する。 KoBoは、臨床知識を視覚言語意味一貫性の学習に統合する。分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証する実験を行った。
論文参考訳（メタデータ） (2023-07-14T09:38:22Z)
Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文参考訳（メタデータ） (2022-09-30T15:06:13Z)
Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文参考訳（メタデータ） (2022-09-15T08:00:01Z)
Semantic segmentation of multispectral photoacoustic images using deep learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-05-20T09:33:55Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)
Learning Binary Semantic Embedding for Histology Image Classification and Retrieval [56.34863511025423]
バイナリ・セマンティック・エンベディング(LBSE)の学習方法を提案する。効率的な埋め込み、分類、検索を行い、組織像の解釈可能なコンピュータ支援診断を提供する。 3つのベンチマークデータセットで実施された実験は、様々なシナリオにおいてLBSEの優位性を検証する。
論文参考訳（メタデータ） (2020-10-07T08:36:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。