論文の概要: MM-Retinal V2: Transfer an Elite Knowledge Spark into Fundus Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2501.15798v1
- Date: Mon, 27 Jan 2025 05:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:19.273077
- Title: MM-Retinal V2: Transfer an Elite Knowledge Spark into Fundus Vision-Language Pretraining
- Title(参考訳): MM-Retinal V2: 基礎視領域事前学習へのエリート知識の流出
- Authors: Ruiqi Wu, Na Su, Chenran Zhang, Tengfei Ma, Tao Zhou, Zhiting Cui, Nianfeng Tang, Tianyu Mao, Yi Zhou, Wen Fan, Tianxing Wu, Shenqi Jing, Huazhu Fu,
- Abstract要約: 基礎画像解析のための様々な下流タスクを一般化するために、視覚言語による事前訓練が研究されている。
本稿では,高品質な画像テキストペアデータセットであるMM-Retinal V2を紹介する。
本稿では,エリートデータからの知識を分類的公開データセットに組み込むことで事前学習を行う,新しいファンドスビジョン言語事前学習モデルであるKeepFIT V2を提案する。
- 参考スコア(独自算出の注目度): 34.10482034684238
- License:
- Abstract: Vision-language pretraining (VLP) has been investigated to generalize across diverse downstream tasks for fundus image analysis. Although recent methods showcase promising achievements, they significantly rely on large-scale private image-text data but pay less attention to the pretraining manner, which limits their further advancements. In this work, we introduce MM-Retinal V2, a high-quality image-text paired dataset comprising CFP, FFA, and OCT image modalities. Then, we propose a novel fundus vision-language pretraining model, namely KeepFIT V2, which is pretrained by integrating knowledge from the elite data spark into categorical public datasets. Specifically, a preliminary textual pretraining is adopted to equip the text encoder with primarily ophthalmic textual knowledge. Moreover, a hybrid image-text knowledge injection module is designed for knowledge transfer, which is essentially based on a combination of global semantic concepts from contrastive learning and local appearance details from generative learning. Extensive experiments across zero-shot, few-shot, and linear probing settings highlight the generalization and transferability of KeepFIT V2, delivering performance competitive to state-of-the-art fundus VLP models trained on large-scale private image-text datasets. Our dataset and model are publicly available via https://github.com/lxirich/MM-Retinal.
- Abstract(参考訳): VLP(Vision-Language Pretraining)は、基礎画像解析のための様々な下流タスクを一般化するために研究されている。
最近の手法は有望な成果を示すが、大規模な私的画像テキストデータに大きく依存しているが、事前学習の方法にはあまり注意を払わず、さらなる進歩が制限されている。
本研究では,CFP,FFA,OCT画像モダリティからなる高品質な画像テキストペアデータセットであるMM-Retinal V2を紹介する。
そこで本稿では,エリートデータからの知識を分類的公開データセットに組み込むことにより,知識を事前学習する基盤言語事前学習モデルであるKeepFIT V2を提案する。
具体的には、テキストエンコーダに主に眼科のテキスト知識を持たせるために、予備的なテキスト事前学習を採用する。
さらに,コントラスト学習からのグローバルな意味概念と生成学習からの局所的な外観詳細を組み合わせ,知識伝達のためのハイブリッド画像テキスト知識注入モジュールを設計した。
ゼロショット、少数ショット、リニアプローブ設定にわたる広範な実験は、KeepFIT V2の一般化と転送性を強調し、大規模プライベートな画像テキストデータセットでトレーニングされた最先端のファンドVLPモデルに競合するパフォーマンスを提供する。
私たちのデータセットとモデルはhttps://github.com/lxirich/MM-Retinal.comから公開されています。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise [36.81785819064916]
MM-Retinalは、専門的な基礎図書から収集した高品質の画像テキストペアを含むマルチモーダルデータセットである。
本稿では,KeepFITと呼ばれるFundus Image-Textの専門知識を取り入れた,知識強化型基礎事前学習モデルを提案する。
提案するファウンデーションモデルは、6つの未知の下流タスクにまたがる最先端のパフォーマンスを実現し、ゼロショットおよび少数ショットシナリオにおいて優れた一般化能力を有する。
論文 参考訳(メタデータ) (2024-05-20T05:23:56Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。