論文の概要: UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling
- arxiv url: http://arxiv.org/abs/2408.05618v1
- Date: Sat, 10 Aug 2024 19:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:12:00.920902
- Title: UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling
- Title(参考訳): UrFound:知識誘導型マスクドモデリングによるユニバーサル網膜基礎モデルを目指して
- Authors: Kai Yu, Yang Zhou, Yang Bai, Zhi Da Soh, Xinxing Xu, Rick Siow Mong Goh, Ching-Yu Cheng, Yong Liu,
- Abstract要約: UrFoundは、マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルである。
約180万枚の網膜画像のトレーニングにより、UrFoundは最大1.6万枚の未表示画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 26.087595095138305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retinal foundation models aim to learn generalizable representations from diverse retinal images, facilitating label-efficient model adaptation across various ophthalmic tasks. Despite their success, current retinal foundation models are generally restricted to a single imaging modality, such as Color Fundus Photography (CFP) or Optical Coherence Tomography (OCT), limiting their versatility. Moreover, these models may struggle to fully leverage expert annotations and overlook the valuable domain knowledge essential for domain-specific representation learning. To overcome these limitations, we introduce UrFound, a retinal foundation model designed to learn universal representations from both multimodal retinal images and domain knowledge. UrFound is equipped with a modality-agnostic image encoder and accepts either CFP or OCT images as inputs. To integrate domain knowledge into representation learning, we encode expert annotation in text supervision and propose a knowledge-guided masked modeling strategy for model pre-training. It involves reconstructing randomly masked patches of retinal images while predicting masked text tokens conditioned on the corresponding retinal image. This approach aligns multimodal images and textual expert annotations within a unified latent space, facilitating generalizable and domain-specific representation learning. Experimental results demonstrate that UrFound exhibits strong generalization ability and data efficiency when adapting to various tasks in retinal image analysis. By training on ~180k retinal images, UrFound significantly outperforms the state-of-the-art retinal foundation model trained on up to 1.6 million unlabelled images across 8 public retinal datasets. Our code and data are available at https://github.com/yukkai/UrFound.
- Abstract(参考訳): 網膜基盤モデルは、多様な網膜画像から一般化可能な表現を学習することを目的としており、様々な眼科領域におけるラベル効率の良いモデル適応を容易にする。
その成功にもかかわらず、現在の網膜基盤モデルは一般的に、カラーファンドス撮影(CFP)やオプティカルコヒーレンス・トモグラフィ(OCT)のような単一の画像モダリティに制限されており、その汎用性は制限されている。
さらに、これらのモデルは、専門家のアノテーションを完全に活用し、ドメイン固有の表現学習に必要な価値あるドメイン知識を見落としようと苦労するかもしれません。
これらの制約を克服するために,マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルであるUrFoundを紹介する。
UrFound はモダリティに依存しない画像エンコーダを備えており、CFP または OCT のいずれかを入力として受け入れる。
ドメイン知識を表現学習に統合するために、専門家アノテーションをテキスト管理にエンコードし、モデル事前学習のための知識誘導型マスク付きモデリング戦略を提案する。
網膜画像のランダムにマスクされたパッチを再構築し、対応する網膜画像に条件付けられたマスクされたテキストトークンを予測する。
このアプローチは、多モード画像とテキスト専門家アノテーションを統一された潜在空間内に配置し、一般化可能かつドメイン固有の表現学習を容易にする。
網膜画像解析において,UrFoundは様々なタスクに適応する際に,強力な一般化能力とデータ効率を示すことを示した。
約180kの網膜画像のトレーニングにより、UrFoundは8つのパブリックな網膜データセットにわたる最大1.6万枚の未ラベル画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
私たちのコードとデータはhttps://github.com/yukkai/UrFound.comで公開されています。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging [13.88319807760491]
眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。
11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
論文 参考訳(メタデータ) (2024-05-18T17:03:39Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Local Conditional Neural Fields for Versatile and Generalizable
Large-Scale Reconstructions in Computational Imaging [4.880408468047162]
我々は,この制限に対処するために,連続的な暗黙的ニューラル表現を活用する,新しいローカル条件ニューラルフィールド(LCNF)フレームワークを導入する。
多重計測によるFPM(Fourier ptychography microscopy)の逆問題に対するLCNFの有用性を実証した。
数個の多重化測定値を用いて,広視野高分解能位相像の高精度な再構成を実証した。
論文 参考訳(メタデータ) (2023-07-12T14:52:31Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - k-SALSA: k-anonymous synthetic averaging of retinal images via local
style alignment [6.36950432352094]
我々は,網膜基底像を合成するためのGANベースのフレームワークであるk-SALSAを紹介する。
k-SALSAは、網膜画像の実用的なパフォーマンスを達成するために、GANのトレーニングと反転のための最先端技術を組み合わせている。
我々の研究は、科学的コラボレーションのための網膜画像のより広範な共有に向けた一歩である。
論文 参考訳(メタデータ) (2023-03-20T01:47:04Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。