論文の概要: BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.23534v1
- Date: Sun, 30 Mar 2025 17:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.175828
- Title: BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation
- Title(参考訳): BiPVL-Seg:医用画像分割のためのグローバル局所アライメントを用いた双方向プログレッシブ・ビジョンランゲージ・フュージョン
- Authors: Rafi Ibn Sultan, Hui Zhu, Chengyin Li, Dongxiao Zhu,
- Abstract要約: BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
- 参考スコア(独自算出の注目度): 9.262045402495225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation typically relies solely on visual data, overlooking the rich textual information clinicians use for diagnosis. Vision-language models attempt to bridge this gap, but existing approaches often process visual and textual features independently, resulting in weak cross-modal alignment. Simple fusion techniques fail due to the inherent differences between spatial visual features and sequential text embeddings. Additionally, medical terminology deviates from general language, limiting the effectiveness of off-the-shelf text encoders and further hindering vision-language alignment. We propose BiPVL-Seg, an end-to-end framework that integrates vision-language fusion and embedding alignment through architectural and training innovations, where both components reinforce each other to enhance medical image segmentation. BiPVL-Seg introduces bidirectional progressive fusion in the architecture, which facilitates stage-wise information exchange between vision and text encoders. Additionally, it incorporates global-local contrastive alignment, a training objective that enhances the text encoder's comprehension by aligning text and vision embeddings at both class and concept levels. Extensive experiments on diverse medical imaging benchmarks across CT and MR modalities demonstrate BiPVL-Seg's superior performance when compared with state-of-the-art methods in complex multi-class segmentation. Source code is available in this GitHub repository.
- Abstract(参考訳): 医用画像のセグメンテーションは一般的に視覚データにのみ依存し、臨床医が診断に使用するリッチなテキスト情報を見渡す。
視覚言語モデルは、このギャップを埋めようとしているが、既存のアプローチはしばしば視覚的特徴とテキスト的特徴を独立に処理し、結果としてクロスモーダルアライメントが弱くなる。
単純な融合技術は、空間的な視覚的特徴とシーケンシャルなテキスト埋め込みの違いによって失敗する。
さらに、医学用語は一般言語から逸脱し、市販のテキストエンコーダの有効性を制限し、視覚言語アライメントを妨げている。
両コンポーネントが相互に強化して医用画像セグメンテーションを強化し,視覚言語融合と組込みアライメントを統合した,エンドツーエンドのフレームワークであるBiPVL-Segを提案する。
BiPVL-Segはアーキテクチャに双方向のプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
さらに、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的であるグローバルローカルコントラストアライメントも組み込まれている。
複雑な多クラスセグメンテーションにおける最先端手法と比較して、CTおよびMRモダリティの多種多様な医用画像ベンチマークに関する広範な実験は、BiPVL-Segの優れた性能を示している。
ソースコードは、このGitHubリポジトリで入手できる。
関連論文リスト
- MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。