論文の概要: CLIP-IT: CLIP-based Pairing for Histology Images Classification
- arxiv url: http://arxiv.org/abs/2504.16181v3
- Date: Tue, 29 Jul 2025 18:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:50.974848
- Title: CLIP-IT: CLIP-based Pairing for Histology Images Classification
- Title(参考訳): CLIP-IT: 組織像分類のためのCLIPベースのペアリング
- Authors: Banafsheh Karimian, Giulia Avanzato, Soufian Belharbi, Alexis Guichemerre, Luke McCaffrey, Mohammadhadi Shateri, Eric Granger,
- Abstract要約: マルチモーダル学習は医用画像解析において有望であり、組織像やテキストなどの相補的なモダリティを組み合わせたものである。
CLIP-IT(CLIP-IT)は、ペア化されたデータ要求をなくし、リッチな未ペアテキストレポートに依存する新しいフレームワークである。
組織像データセットの実験により、CLIP-ITは、一様および多様のCLIPベースのベースラインの分類精度を一貫して改善することを確認した。
- 参考スコア(独自算出の注目度): 6.5280377968471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning has shown promise in medical image analysis, combining complementary modalities like histology images and text. Vision-language models (VLMs) capture rich diagnostic cues but often require large paired datasets and prompt- or text-based inference, limiting their practicality due to annotation cost, privacy, and compute demands. Crucially, available free unpaired external text, like pathology reports, can still provide complementary diagnostic cues if semantically relevant content is retrievable per image. To address this, we introduce CLIP-IT, a novel framework that relies on rich unpaired text reports, eliminating paired data requirement. Specifically, CLIP-IT uses a CLIP model pre-trained on histology image-text pairs from a separate dataset to retrieve the most relevant unpaired textual report for each image in the target unimodal dataset. These reports, sourced from the same disease domain and tissue type, form pseudo-pairs that reflect shared clinical semantics rather than exact alignment. Knowledge from these texts is distilled into the vision model during training, while LoRA-based adaptation mitigates the semantic gap between unaligned modalities. At inference time, only the improved vision model is used, with minimal computational overhead, enabling efficient pairing-free multimodal deployment. Experiments on histology image datasets confirm that CLIP-IT consistently improves classification accuracy over both unimodal and multimodal CLIP-based baselines in most cases, without the burden of paired data training or inference-time complexity.
- Abstract(参考訳): マルチモーダル学習は医用画像解析において有望であり、組織像やテキストなどの相補的なモダリティを組み合わせたものである。
視覚言語モデル(VLM)は、豊富な診断手順をキャプチャするが、しばしば大きなペアデータセットとプロンプトまたはテキストベースの推論を必要とし、アノテーションコスト、プライバシ、計算要求による実用性を制限する。
重要なことは、画像ごとに意味論的に関連のあるコンテンツが検索可能であれば、病理報告のような無料の未ペアの外部テキストは相補的な診断手段を提供することができる。
この問題に対処するために、ペア化されたデータ要求を排除し、リッチな未ペアテキストレポートに依存する新しいフレームワークであるCLIP-ITを紹介します。
具体的には、CLIP-ITは、異なるデータセットからヒストロジー画像-テキストペアに事前トレーニングされたCLIPモデルを使用して、ターゲットのアンモダルデータセットの各イメージについて、最も関連のないテキストレポートを取得する。
これらの報告は、同じ疾患領域と組織タイプから得られたもので、正確なアライメントではなく共有臨床意味論を反映した擬似ペアを形成している。
これらのテキストからの知識は、トレーニング中に視覚モデルに蒸留され、LoRAベースの適応は、不整合性の間の意味的ギャップを緩和する。
推論時には、最適化されたビジョンモデルのみを使用し、計算オーバーヘッドを最小限に抑え、効率的なペアリングフリーなマルチモーダルデプロイメントを実現する。
ヒストロジー画像データセットの実験では、CLIP-ITはペアデータトレーニングや推論時間の複雑さの負担を伴わずに、通常とマルチモーダルの両方のCLIPベースのベースラインの分類精度を一貫して改善している。
関連論文リスト
- Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model [27.299068494473016]
我々は、革新的なワンショットマルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。
FedMMEは、医用画像からテキストレポートを作成するために、視覚的大言語モデルを活用している。
RSNAデータセットでは、既存のワンショットのフェデレーション学習アプローチを17.5%以上上回っている。
論文 参考訳(メタデータ) (2025-01-06T08:36:28Z) - CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment [40.811510317145675]
CPLIPは、病理組織学における画像とテキストのアライメントを強化する新しい教師なし技術である。
複数の病理組織学的タスクで評価され、CPLIPはゼロショット学習シナリオにおいて顕著な改善を示した。
さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-06-07T18:39:58Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。