論文の概要: RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
- arxiv url: http://arxiv.org/abs/2506.22149v1
- Date: Fri, 27 Jun 2025 11:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.191324
- Title: RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
- Title(参考訳): RetFiner:網膜ファンデーションモデルのためのビジョンランゲージリファインメントスキーム
- Authors: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović,
- Abstract要約: 既存のFMの表現を改善するSSLビジョン言語改良スキームであるRetFinerを提案する。
本手法は,テキストデータから得られるリッチな監視信号を利用する,多様な学習目標を用いている。
- 参考スコア(独自算出の注目度): 2.0589064389381004
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of imaging techniques such as optical coherence tomography (OCT) and advances in deep learning (DL) have enabled clinicians and researchers to streamline retinal disease staging. A popular DL approach is self-supervised learning (SSL), where models learn from vast amounts of unlabeled data, avoiding costly annotation. SSL has allowed the development of foundation models (FMs), large models that can be used for a variety of downstream tasks. However, existing FMs for OCT, trained solely on image data, lack a comprehensive and robust semantic understanding of images, as evidenced by their downstream performance (especially for complex tasks), and thus require supervised fine-tuning (which may be unfeasible) to better adapt to specific applications and populations. To address this, we propose RetFiner, an SSL vision-language refinement scheme that improves the representations of existing FMs and enables their efficient and direct adaptation to specific populations for improved downstream performance. Our method uses a diverse set of training objectives which take advantage of the rich supervisory signal found in textual data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM, showing significant improvements in linear probing performance on seven highly diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1 percentage points over their baselines, respectively. Our code and model weights are publicly available at https://github.com/ronnief1/RetFiner.
- Abstract(参考訳): 光コヒーレンス断層撮影(OCT)や深層学習(DL)の進歩といった画像技術の発展により、臨床医や研究者は網膜疾患のステージングを効率化できるようになった。
一般的なDLアプローチは自己教師付き学習(SSL)である。
SSLは、さまざまなダウンストリームタスクに使用できる大きなモデルであるファンデーションモデル(FM)の開発を可能にした。
しかし、OCTの既存のFMは、画像データのみに基づいて訓練されており、ダウンストリームのパフォーマンス(特に複雑なタスク)によって証明されるように、画像の包括的で堅牢なセマンティック理解が欠如しているため、特定のアプリケーションや集団に適応するためには、監督された微調整(不可能かもしれない)が必要である。
これを解決するために,既存のFMの表現を改善するSSLビジョン言語改良スキームであるRetFinerを提案する。
本手法は,テキストデータから得られるリッチな監視信号を利用する,多様な学習目標を用いている。
我々はRetFinerを網膜FMのRETFound、UrFound、VisionFMでテストし、高度に多様性のある7つのOCT分類タスクにおいて線形探索性能が有意に向上し、それぞれベースラインで平均5.8、3.9、および2.1ポイントが増加した。
私たちのコードとモデルの重み付けはhttps://github.com/ronnief1/RetFiner.comで公開されています。
関連論文リスト
- PRETI: Patient-Aware Retinal Foundation Model via Metadata-Guided Representation Learning [3.771396977579353]
PreTIは、メタデータ認識学習と堅牢な自己教師付き表現学習を統合した網膜基盤モデルである。
患者レベルのデータペアを構築し、同一人物の画像を関連付けることにより、非臨床的変動に対する堅牢性を向上させる。
実験では、PreTIは様々な疾患やバイオマーカー予測にまたがって最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-18T04:59:03Z) - FACMIC: Federated Adaptative CLIP Model for Medical Image Classification [12.166024140377337]
本稿では,CLIPモデルを用いた適応型コントラスト言語画像の分類処理について紹介する。
私たちはCLIP用の軽量で効率的な機能アテンションモジュールを採用し、各クライアントのデータに適した機能を選択します。
本稿では,クライアント間のデータ分散の差異を低減するためのドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:24:10Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Multi network InfoMax: A pre-training method involving graph
convolutional networks [0.0]
本稿では,グラフ畳み込み/ニューラルネットワーク(GCN/GNN)を含む事前学習手法を提案する。
学習された高レベルグラフ潜在表現は、下流グラフ分類タスクのパフォーマンス向上に役立つ。
我々は、被験者を健康管理群(HC)と統合失調症群(SZ)に分類するための神経画像データセットに適用した。
論文 参考訳(メタデータ) (2021-11-01T21:53:20Z) - AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning [112.95742995816367]
FSFSLと呼ばれる新しい数発のスナップショット・ラーニング・セッティングを提案する。
FSFSLでは、ソースクラスとターゲットクラスの両方に限られたトレーニングサンプルがある。
また,無関係な画像を削除するためのグラフ畳み込みネットワーク (GCN) ベースのラベルデノイング (LDN) 手法を提案する。
論文 参考訳(メタデータ) (2020-02-28T10:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。