論文の概要: MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise
- arxiv url: http://arxiv.org/abs/2405.11793v1
- Date: Mon, 20 May 2024 05:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:13:43.620400
- Title: MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise
- Title(参考訳): MM-Retinal:Fundus Image-Text Expertiseによる知識強化基礎トレーニング
- Authors: Ruiqi Wu, Chenran Zhang, Jianle Zhang, Yi Zhou, Tao Zhou, Huazhu Fu,
- Abstract要約: MM-Retinalは、専門的な基礎図書から収集した高品質の画像テキストペアを含むマルチモーダルデータセットである。
本稿では,KeepFITと呼ばれるFundus Image-Textの専門知識を取り入れた,知識強化型基礎事前学習モデルを提案する。
提案するファウンデーションモデルは、6つの未知の下流タスクにまたがる最先端のパフォーマンスを実現し、ゼロショットおよび少数ショットシナリオにおいて優れた一般化能力を有する。
- 参考スコア(独自算出の注目度): 36.81785819064916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current fundus image analysis models are predominantly built for specific tasks relying on individual datasets. The learning process is usually based on data-driven paradigm without prior knowledge, resulting in poor transferability and generalizability. To address this issue, we propose MM-Retinal, a multi-modal dataset that encompasses high-quality image-text pairs collected from professional fundus diagram books. Moreover, enabled by MM-Retinal, we present a novel Knowledge-enhanced foundational pretraining model which incorporates Fundus Image-Text expertise, called KeepFIT. It is designed with image similarity-guided text revision and mixed training strategy to infuse expert knowledge. Our proposed fundus foundation model achieves state-of-the-art performance across six unseen downstream tasks and holds excellent generalization ability in zero-shot and few-shot scenarios. MM-Retinal and KeepFIT are available at https://github.com/lxirich/MM-Retinal.
- Abstract(参考訳): 現在の基礎画像分析モデルは、主に個々のデータセットに依存する特定のタスクのために構築されている。
学習プロセスは、通常、事前の知識のないデータ駆動パラダイムに基づいており、転送性や一般化性が劣る。
この問題に対処するため,プロフェッショナル・ファンドス・ダイアグラムから収集した高品質な画像テキスト・ペアを含むマルチモーダル・データセットMM-Retinalを提案する。
さらに,MM-Retinalを用いて,Fundus Image-Textの専門知識を取り入れたKeepFITという,知識強化型基礎事前学習モデルを提案する。
画像類似性に基づくテキストリビジョンと、専門家の知識を注入するための混合トレーニング戦略によって設計されている。
提案するファウンデーションモデルは、6つの未知の下流タスクにまたがる最先端のパフォーマンスを実現し、ゼロショットおよび少数ショットシナリオにおいて優れた一般化能力を有する。
MM-RetinalとKeepFITはhttps://github.com/lxirich/MM-Retinalで入手できる。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Learning Feature Disentanglement and Dynamic Fusion for Recaptured Image
Forensic [7.820667552233989]
我々は、画像再キャプチャーの4つのパターン、すなわち、モアレ再キャプチャー、エッジ再キャプチャー、アーティファクト再キャプチャー、その他の再キャプチャーとして、画像再キャプチャータスクを明示的に再定義する。
本稿では,異なる再キャプチャパターン認識をカバーするために,最も効果的な再キャプチャ表現を適応的に学習する機能ディスタングルとダイナミックフュージョン(FDDF)モデルを提案する。
我々の知る限り、我々はまず、再適応画像法学のための一般的なモデルと一般的な実シーンの大規模データセットを提案する。
論文 参考訳(メタデータ) (2022-06-13T12:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。