論文の概要: Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities
- arxiv url: http://arxiv.org/abs/2506.19320v1
- Date: Tue, 24 Jun 2025 05:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.498779
- Title: Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities
- Title(参考訳): インクリメンタルイメージングモダリティによる連続網膜視機能訓練
- Authors: Yuang Yao, Ruiqi Wu, Yi Zhou, Tao Zhou,
- Abstract要約: RetCoPは、ファンドドメインにおける最初の連続的なビジョン言語事前トレーニングフレームワークである。
異なる画像モダリティから画像とテキストの特徴を段階的に統合した基礎モデルに統合する。
実験により、RetCoPは比較したすべての手法より優れており、最高の一般化と最小の忘れ率を達成することが示されている。
- 参考スコア(独自算出の注目度): 10.031534249264807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional fundus image analysis models focus on single-modal tasks, ignoring fundus modality complementarity, which limits their versatility. Recently, retinal foundation models have emerged, but most still remain modality-specific. Integrating multiple fundus imaging modalities into a single foundation model is valuable. However, in dynamic environments, data from different modalities often arrive incrementally, necessitating continual pre-training. To address this, we propose RetCoP, the first continual vision-language pre-training framework in the fundus domain, which incrementally integrates image and text features from different imaging modalities into a single unified foundation model. To mitigate catastrophic forgetting in continual pre-training, we introduce a rehearsal strategy utilizing representative image-text pairs and an off-diagonal information distillation approach. The former allows the model to revisit knowledge from previous stages, while the latter explicitly preserves the alignment between image and text representations. Experiments show that RetCoP outperforms all the compared methods, achieving the best generalization and lowest forgetting rate. The code can be found at https://github.com/Yuang-Yao/RetCoP.
- Abstract(参考訳): 従来のファンドス画像解析モデルは、単一のモーダルタスクに焦点を合わせ、ファンドスモダリティの相補性を無視し、その汎用性を制限する。
近年、網膜基盤モデルが登場しているが、そのほとんどはまだモジュラリティに特化している。
複数の基礎画像モダリティを単一の基礎モデルに統合することは重要である。
しかし、動的な環境では、異なるモダリティからのデータが漸進的に到着することが多く、継続的な事前学習が必要である。
そこで本研究では,様々な画像モダリティから画像やテキストの特徴を段階的に統合し,単一の基盤モデルに組み込む,最初の連続的な視覚言語事前学習フレームワークであるRetCoPを提案する。
連続事前学習における破滅的な忘れを緩和するために,代表的画像テキストペアと対角線外情報蒸留アプローチを利用したリハーサル戦略を導入する。
前者はモデルが以前の段階から知識を再考することを許容し、後者は画像とテキストの表現のアライメントを明示的に保持する。
実験により、RetCoPは比較したすべての手法より優れており、最高の一般化と最小の忘れ率を達成することが示されている。
コードはhttps://github.com/Yuang-Yao/RetCoP.comにある。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise [36.81785819064916]
MM-Retinalは、専門的な基礎図書から収集した高品質の画像テキストペアを含むマルチモーダルデータセットである。
本稿では,KeepFITと呼ばれるFundus Image-Textの専門知識を取り入れた,知識強化型基礎事前学習モデルを提案する。
提案するファウンデーションモデルは、6つの未知の下流タスクにまたがる最先端のパフォーマンスを実現し、ゼロショットおよび少数ショットシナリオにおいて優れた一般化能力を有する。
論文 参考訳(メタデータ) (2024-05-20T05:23:56Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文 参考訳(メタデータ) (2023-05-05T15:16:07Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。