論文の概要: Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification
- arxiv url: http://arxiv.org/abs/2509.00752v1
- Date: Sun, 31 Aug 2025 09:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.374688
- Title: Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification
- Title(参考訳): 内視鏡画像分類におけるコントラスト学習のための多層CLSトークン融合
- Authors: Y Hop Nguyen, Doan Anh Phan Huu, Trung Thai Tran, Nhat Nam Mai, Van Toi Giap, Thao Thi Phuong Dao, Trung-Nghia Le,
- Abstract要約: ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
同時に、画像分類、画像から画像への検索、テキストから画像への検索の3つの臨床的タスクに取り組む。
95%の精度とF1スコア,画像画像検索用Recall@1,画像画像検索用0.93,テキスト画像検索用0.92,MRRスコア0.97,0.96。
- 参考スコア(独自算出の注目度): 2.5995006632251516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a unified vision-language framework tailored for ENT endoscopy image analysis that simultaneously tackles three clinically-relevant tasks: image classification, image-to-image retrieval, and text-to-image retrieval. Unlike conventional CNN-based pipelines that struggle to capture cross-modal semantics, our approach leverages the CLIP ViT-B/16 backbone and enhances it through Low-Rank Adaptation, multi-level CLS token aggregation, and spherical feature interpolation. These components collectively enable efficient fine-tuning on limited medical data while improving representation diversity and semantic alignment across modalities. To bridge the gap between visual inputs and textual diagnostic context, we introduce class-specific natural language prompts that guide the image encoder through a joint training objective combining supervised classification with contrastive learning. We validated our framework through participation in the ACM MM'25 ENTRep Grand Challenge, achieving 95% accuracy and F1-score in classification, Recall@1 of 0.93 and 0.92 for image-to-image and text-to-image retrieval respectively, and MRR scores of 0.97 and 0.96. Ablation studies demonstrated the incremental benefits of each architectural component, validating the effectiveness of our design for robust multimodal medical understanding in low-resource clinical settings.
- Abstract(参考訳): 本稿では,画像分類,画像から画像への検索,テキストから画像への検索という3つの臨床的課題に同時に対処する,ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
クロスモーダルなセマンティクスを捉えるのに苦労する従来のCNNベースのパイプラインとは異なり、我々のアプローチはCLIP ViT-B/16バックボーンを活用し、ローランド適応、マルチレベルCLSトークンアグリゲーション、球面特徴補間によって拡張する。
これらのコンポーネントは全体として、限られた医療データに対する効率的な微調整を可能にし、表現の多様性とモダリティ間のセマンティックアライメントを改善している。
視覚入力とテキスト診断コンテキストのギャップを埋めるために,教師付き分類とコントラスト学習を組み合わせた共同学習目標を通じて,画像エンコーダを誘導するクラス固有の自然言語プロンプトを導入する。
ACM MM'25 ENTRep Grand Challengeに参加し,95%の精度,F1スコアの分類,画像画像検索用Recall@1,画像画像検索用Recall@1,画像画像検索用Recall@1,画像画像検索用Recall@92,MRRスコア0。
アブレーション研究は,低リソース臨床環境下での堅牢なマルチモーダル医療理解のための設計の有効性を検証し,各設計要素の漸進的なメリットを実証した。
関連論文リスト
- CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image
Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。
提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。
Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文 参考訳(メタデータ) (2023-06-25T16:55:32Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - A Knowledge-based Learning Framework for Self-supervised Pre-training
Towards Enhanced Recognition of Medical Images [14.304996977665212]
本研究では,医用画像の認識向上に向けた知識ベース学習フレームワークを提案する。
コントラスト学習と生成学習モデルを相乗化することで、3つのフェーズで機能する。
提案したフレームワークは、AUC/DiceのSimCLRよりも2.08, 1.23, 1.12, 0.76, 1.38ポイント改善された自己教師型ベンチマークで統計的に優れている。
論文 参考訳(メタデータ) (2022-11-27T03:58:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Contrastive Semi-Supervised Learning for 2D Medical Image Segmentation [16.517086214275654]
フルイメージではなく,画像パッチにContrastive Learning(CL)を適用した,新しい半教師付き2次元医療セグメンテーションソリューションを提案する。
これらのパッチは、擬似ラベリングによって得られた異なるクラスの意味情報を用いて有意義に構築される。
また,コントラスト学習と相乗効果を持つ新しい整合正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-12T15:43:24Z) - Self-Ensembling Contrastive Learning for Semi-Supervised Medical Image
Segmentation [6.889911520730388]
限られたラベルを持つ医用画像セグメンテーションにおける半教師あり学習の性能向上を目指す。
我々は、ラベルのない画像に対照的な損失を与えることによって、特徴レベルで潜在表現を直接学習する。
我々はMRIとCTのセグメンテーションデータセットの実験を行い、提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-27T03:27:58Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。