Fugu-MT 論文翻訳(概要): Multimodal Medical Image Binding via Shared Text Embeddings

論文の概要: Multimodal Medical Image Binding via Shared Text Embeddings

arxiv url: http://arxiv.org/abs/2506.18072v1
Date: Sun, 22 Jun 2025 15:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.731339
Title: Multimodal Medical Image Binding via Shared Text Embeddings
Title（参考訳）: 共有テキスト埋め込みによるマルチモーダル医用画像の結合
Authors: Yunhao Liu, Suyang Xi, Shiqi Liu, Hong Ding, Chicheng Jin, Chenxi Yang, Junjun He, Yiqing Shen,
Abstract要約: Multimodal Medical Image Binding with Text (Mtextsuperscript3Bind)は、医用画像モダリティのシームレスなアライメントを可能にする新しい事前トレーニングフレームワークである。 Mtextsuperscript3Bindの最初の微調整CLIPライクなイメージテキストモデルは、そのモダリティ固有のテキスト埋め込みスペースを調整する。 Mtextsuperscript3Bindは、ゼロショット、少数ショット分類およびクロスモーダル検索タスクにおいて、最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 15.873810726442603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical image analysis increasingly relies on the integration of multiple imaging modalities to capture complementary anatomical and functional information, enabling more accurate diagnosis and treatment planning. Achieving aligned feature representations across these diverse modalities is therefore important for effective multimodal analysis. While contrastive language-image pre-training (CLIP) and its variant have enabled image-text alignments, they require explicitly paired data between arbitrary two modalities, which is difficult to acquire in medical contexts. To address the gap, we present Multimodal Medical Image Binding with Text (M\textsuperscript{3}Bind), a novel pre-training framework that enables seamless alignment of multiple medical imaging modalities through a shared text representation space without requiring explicit paired data between any two medical image modalities. Specifically, based on the insight that different images can naturally bind with text, M\textsuperscript{3}Bind first fine-tunes pre-trained CLIP-like image-text models to align their modality-specific text embedding space while preserving their original image-text alignments. Subsequently, we distill these modality-specific text encoders into a unified model, creating a shared text embedding space. Experiments on X-ray, CT, retina, ECG, and pathological images on multiple downstream tasks demonstrate that M\textsuperscript{3}Bind achieves state-of-the-art performance in zero-shot, few-shot classification and cross-modal retrieval tasks compared to its CLIP-like counterparts. These results validate M\textsuperscript{3}Bind's effectiveness in achieving cross-image-modal alignment for medical analysis.
Abstract（参考訳）: 医用画像解析は、補完的な解剖学的および機能的な情報を捉え、より正確な診断と治療計画を可能にするために、複数の画像モダリティの統合にますます依存している。したがって、これらの多様性にまたがる整列した特徴表現は、効果的なマルチモーダル解析において重要である。対照的な言語画像事前学習(CLIP)とその変異は、画像テキストアライメントを可能にするが、医学的文脈では取得が困難である任意の2つのモード間のペアデータが必要である。このギャップに対処するために,2つの医用画像モダリティ間の明示的なペアデータを必要とすることなく,共有テキスト表現空間を通じて複数の医用画像モダリティのシームレスなアライメントを可能にする,新たな事前トレーニングフレームワークであるM\textsuperscript{3}Bindを提案する。 M\textsuperscript{3}Bind first fine-tunes pre-trained CLIP-like image-text model toaligned their modality-specific text embedded space whileserving their original image-text alignments。その後、これらのモダリティ固有のテキストエンコーダを統一モデルに蒸留し、共有テキスト埋め込み空間を作成する。複数の下流タスクにおけるX線、CT、網膜、心電図、および病理画像の実験は、M\textsuperscript{3}Bindが、CLIPのようなタスクと比較して、ゼロショット、少数ショット分類、およびクロスモーダル検索タスクにおいて最先端のパフォーマンスを達成することを示した。これらの結果は,M\textsuperscript{3}Bindが医療分析においてクロスイメージ・モーダルアライメントを実現する上で有効であることを示す。

関連論文リスト

Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文参考訳（メタデータ） (2025-07-16T16:29:30Z)
CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.5280377968471]
マルチモーダル学習は医用画像解析において有望であり、組織像やテキストなどの相補的なモダリティを組み合わせたものである。 CLIP-IT(CLIP-IT)は、ペア化されたデータ要求をなくし、リッチな未ペアテキストレポートに依存する新しいフレームワークである。組織像データセットの実験により、CLIP-ITは、一様および多様のCLIPベースのベースラインの分類精度を一貫して改善することを確認した。
論文参考訳（メタデータ） (2025-04-22T18:14:43Z)
Text-Promptable Propagation for Referring Medical Image Sequence Segmentation [20.724643106195852]
Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
論文参考訳（メタデータ） (2025-02-16T12:13:11Z)
Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。 TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文参考訳（メタデータ） (2024-12-18T06:19:03Z)
SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文参考訳（メタデータ） (2024-06-27T17:46:13Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文参考訳（メタデータ） (2024-02-27T06:11:54Z)
MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-01-03T07:54:13Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。