論文の概要: Ultrasound Vision-Language Alignment via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2605.02126v1
- Date: Mon, 04 May 2026 01:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.095988
- Title: Ultrasound Vision-Language Alignment via Contrastive Learning
- Title(参考訳): コントラスト学習による超音波ビジョンランゲージアライメント
- Authors: Zhuoyang Lyu, Yiyang Zhang, Tongxin Wang, Ruirui Lan,
- Abstract要約: EchoCare-CLIPは、超音波画像と臨床テキストを共有埋め込み空間で整列するデュアルエンコーダコントラストフレームワークである。
2つのテキストエンコーダファミリー(CLIP, BioClinicalBERT)と2つのキャプション戦略(Template-based, LLM- generated)にまたがるモデル構成をOpenAI CLIPとBiomedCLIPベースラインに対して評価した。
トレーニングされたモデルでは,一対のアライメントスコア0.682の最適構成で,ベースラインのクロスモーダルアライメントを一貫して改善しています。
- 参考スコア(独自算出の注目度): 6.671265771425717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultrasound foundation models have achieved strong performance on structured prediction tasks but remain exclusively vision-based, limiting zero-shot and few-shot transfer to novel tasks where task-specific annotation is scarce. We address this gap with EchoCare-CLIP, a CLIP-style dual-encoder contrastive framework that aligns ultrasound images with clinical text in a shared embedding space. We curate a multi-organ corpus of over 16K image-text pairs spanning breast, liver, lung, and thyroid, with over 78% of captions derived from expert-annotated reports, and complement the remainder with a three-tier template-based and LLM-based caption generation pipeline. We evaluate model configurations spanning two text encoder families (CLIP, BioClinicalBERT) and two caption strategies (template-based, LLM-generated) against OpenAI CLIP and BiomedCLIP baselines. Our trained models consistently improve cross-modal alignment over baselines, with the best configuration achieving a paired alignment score of 0.682. However, stronger alignment does not guarantee better downstream performance: CLIP-based variants with partial fine-tuning achieve the strongest zero-shot classification on external held-out datasets (0.709 on BUSI; 0.626 on AULI), while full end-to-end fine-tuning degrades transfer due to overfitting. On linear probing and few-shot adaptation, model rankings are dataset-dependent, reflecting a trade-off between domain adaptation and representational generalizability. We further show that template-based captions match or outperform LLM-generated captions, suggesting lexical diversity is not a proxy for caption quality. Taken together, our results demonstrate that ultrasound vision-language alignment is achievable from public data alone, but robust clinical transfer requires careful balancing of domain adaptation, encoder capacity, and caption supervision quality.
- Abstract(参考訳): 超音波基礎モデルは、構造化された予測タスクにおいて強力な性能を保ちながら、タスク固有のアノテーションが不足している新しいタスクへのゼロショットと少数ショットの転送を制限し、ビジョンベースのみに留まっている。
このギャップを、超音波画像と臨床テキストを共有埋め込み空間で整列するCLIPスタイルの二重エンコーダコントラストフレームワークであるEchoCare-CLIPで解決する。
我々は,乳房,肝臓,肺,甲状腺にまたがる16K以上の画像テキストペアからなる多臓器コーパスを,専門家による報告から得られたキャプションの78%以上を治療し,残りの部分は3層テンプレートベースおよびLCMベースのキャプション生成パイプラインで補完する。
2つのテキストエンコーダファミリー(CLIP, BioClinicalBERT)と2つのキャプション戦略(Template-based, LLM- generated)にまたがるモデル構成をOpenAI CLIPとBiomedCLIPベースラインに対して評価した。
トレーニングされたモデルでは,一対のアライメントスコア0.682の最適構成で,ベースラインのクロスモーダルアライメントを一貫して改善しています。
部分的に微調整されたCLIPベースの変種は、外部のホールトアウトデータセット(BUSIは0.709、AULIは0.626)で最強のゼロショット分類を達成する一方、完全なエンドツーエンドの微調整はオーバーフィッティングによる転送を劣化させる。
線形探索と少数ショット適応では、モデルランキングはデータセット依存であり、ドメイン適応と表現一般化性のトレードオフを反映している。
さらに,テンプレートベースのキャプションはLLM生成キャプションと一致しているか,あるいは性能が良く,語彙の多様性はキャプション品質の指標ではないことを示唆する。
以上の結果から,公的なデータだけでは超音波ビジョン言語アライメントが達成可能であることが示されたが,堅牢な臨床応用には,ドメイン適応,エンコーダ容量,キャプション監督品質の慎重にバランスをとる必要がある。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs [24.283989257873085]
VIVID-Medは,凍結した大言語モデル(LLM)を構造化意味論的教師として活用し,医療用ビジョントランスフォーマー(ViT)を事前訓練する新しいフレームワークである。
VIVID-Medは、臨床所見をUnified MedicalNIST (UMS) を介して検証可能なフィールド状態ペアに翻訳し、応答性を考慮したマスキングを用いて最適化に焦点を当てる。
マクロAUCは0.8588で、500倍少ないデータを使用しながら、BiomedCLIPを+6.65ポイント上回る。
論文 参考訳(メタデータ) (2026-03-10T02:42:51Z) - RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation [44.39679803351263]
我々は手話に特化して設計された大規模視覚言語モデル(LVLM)を構築した。
手話の十分な表現のために、RVLFは効果的な意味表現学習機構を導入する。
そして,文レベルの意味的ミスアライメントを改善するために,GRPOに基づく最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-12-08T08:11:53Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - SurgLaVi: Large-Scale Hierarchical Dataset for Surgical Vision-Language Representation Learning [41.95743276961411]
これまでで最大かつ最も多様な手術用視覚言語データセットであるSurgLaViについて紹介する。
SurgLaViのコアには、完全に自動化されたパイプラインがあり、手術ビデオのきめ細かい書き起こしを生成し、それらをコヒーレントな手続き単位に分割する。
アクセシビリティを確保するため、公開データから構築された113kクリップカプセル対のオープンソースデリバティブであるSurgLaVi-betaをリリースする。
論文 参考訳(メタデータ) (2025-09-09T21:21:10Z) - Modeling Caption Diversity in Contrastive Vision-Language Pretraining [48.7603274197994]
画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを導入する。
Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。
Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-30T01:19:18Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。