論文の概要: RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions
- arxiv url: http://arxiv.org/abs/2505.12887v1
- Date: Mon, 19 May 2025 09:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.50852
- Title: RetinaLogos: Fine-Grained Synthesis of High-Resolution Retinal Images Through Captions
- Title(参考訳): RetinaLogos:高分解能網膜画像の細粒化合成
- Authors: Junzhi Ning, Cheng Tang, Kaijin Zhou, Diping Song, Lihao Liu, Ming Hu, Wei Li, Yanzhou Su, Tianbing Li, Jiyao Liu, Yejin, Sheng Zhang, Yuanfeng Ji, Junjun He,
- Abstract要約: RetinaLogos-1400kは、140万のエントリからなる大規模で合成的なCaption-CFPデータセットである。
我々はRetinaLogosと呼ばれる新しい3段階のトレーニングフレームワークを採用し、網膜画像のきめ細かいセマンティック制御を可能にする。
実験では、複数のデータセットにまたがって最先端のパフォーマンスを示し、62.07%のテキスト駆動合成画像が眼科医によって実際のものと区別できない。
- 参考スコア(独自算出の注目度): 15.499798559622528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of high-quality, labelled retinal imaging data, which presents a significant challenge in the development of machine learning models for ophthalmology, hinders progress in the field. To synthesise Colour Fundus Photographs (CFPs), existing methods primarily relying on predefined disease labels face significant limitations. However, current methods remain limited, thus failing to generate images for broader categories with diverse and fine-grained anatomical structures. To overcome these challenges, we first introduce an innovative pipeline that creates a large-scale, synthetic Caption-CFP dataset comprising 1.4 million entries, called RetinaLogos-1400k. Specifically, RetinaLogos-1400k uses large language models (LLMs) to describe retinal conditions and key structures, such as optic disc configuration, vascular distribution, nerve fibre layers, and pathological features. Furthermore, based on this dataset, we employ a novel three-step training framework, called RetinaLogos, which enables fine-grained semantic control over retinal images and accurately captures different stages of disease progression, subtle anatomical variations, and specific lesion types. Extensive experiments demonstrate state-of-the-art performance across multiple datasets, with 62.07% of text-driven synthetic images indistinguishable from real ones by ophthalmologists. Moreover, the synthetic data improves accuracy by 10%-25% in diabetic retinopathy grading and glaucoma detection, thereby providing a scalable solution to augment ophthalmic datasets.
- Abstract(参考訳): 高品質なラベル付き網膜画像データの不足は、眼科の機械学習モデルの開発において大きな課題をもたらし、この分野の進歩を妨げる。
Colour Fundus Photographs (CFPs) を合成するために、既存の方法は主に定義済みの疾患ラベルに依存している。
しかし、現在の方法はまだ限られており、多種多様な微細な解剖学的構造を持つより広いカテゴリの画像を生成できない。
これらの課題を克服するために、私たちはまず、RetinaLogos-1400kと呼ばれる140万のエントリからなる大規模で合成されたCaption-CFPデータセットを生成する革新的なパイプラインを導入しました。
具体的には、RetinaLogos-1400kは大きな言語モデル(LLM)を使用して、網膜の状態と、光学ディスクの構成、血管分布、神経線維層、病理的特徴などの重要な構造を記述する。
さらに、このデータセットに基づいて、網膜画像の微細な意味制御を可能にし、疾患の進行、微妙な解剖学的変化、特定の病変の異なる段階を正確に把握する、RetinaLogosと呼ばれる新しい3段階トレーニングフレームワークを採用する。
大規模な実験では、複数のデータセットにまたがって最先端のパフォーマンスを示し、62.07%のテキスト駆動合成画像が眼科医によって実際のものと区別できない。
さらに, 糖尿病性網膜症のグレーディングおよび緑内障検出において, 10%〜25%の精度向上を実現し, 眼科データセットの拡張にスケーラブルなソリューションを提供する。
関連論文リスト
- Diverse Image Generation with Diffusion Models and Cross Class Label Learning for Polyp Classification [4.747649393635696]
そこで我々は,多種多様な特徴を持つテキスト制御合成画像を生成する新しいモデルPathoPolyp-Diffを開発した。
モデルが他のクラスから特徴を学習できるように、クラス間ラベル学習を導入し、データアノテーションの面倒な作業を減らす。
論文 参考訳(メタデータ) (2025-02-08T04:26:20Z) - Rethinking Diffusion-Based Image Generators for Fundus Fluorescein Angiography Synthesis on Limited Data [9.343430674144976]
本稿では,医療データ制限の課題を克服するために,新しい潜伏拡散モデルに基づくフレームワークを提案する。
本フレームワークは,既存の方法と比較して最先端の成果を達成し,眼科診断や患者ケアの強化に有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-12-17T10:37:46Z) - EyeDiff: text-to-image diffusion model improves rare eye disease diagnosis [7.884451100342276]
EyeDiffは、自然言語のプロンプトからマルチモーダル眼科画像を生成するために設計されたテキスト・ツー・イメージモデルである。
EyeDiffは8つの大規模なデータセットでトレーニングされており、10のマルチリージョンの外部データセットに適応している。
論文 参考訳(メタデータ) (2024-11-15T07:30:53Z) - Neurovascular Segmentation in sOCT with Deep Learning and Synthetic Training Data [4.5276169699857505]
本研究は, 連続断面光コヒーレンストモグラフィー画像における神経血管セグメンテーションのための合成エンジンについて述べる。
提案手法は,ラベル合成とラベル・ツー・イメージ変換の2段階からなる。
前者の有効性を,より現実的なトレーニングラベルの集合と比較し,後者を合成ノイズと人工物モデルのアブレーション研究により実証した。
論文 参考訳(メタデータ) (2024-07-01T16:09:07Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - OADAT: Experimental and Synthetic Clinical Optoacoustic Data for
Standardized Image Processing [62.993663757843464]
オプトアコースティック(OA)イメージングは、ナノ秒レーザーパルスによる生体組織の励起と、光吸収による熱弾性膨張によって発生する超音波の検出に基づいている。
OAイメージングは、深部組織における豊富な光学コントラストと高分解能の強力な組み合わせを特徴としている。
臨床環境でのOAの幅広い応用を促進するために、異なるタイプの実験的なセットアップと関連する処理手法で生成される標準化データセットは存在しない。
論文 参考訳(メタデータ) (2022-06-17T08:11:26Z) - NuI-Go: Recursive Non-Local Encoder-Decoder Network for Retinal Image
Non-Uniform Illumination Removal [96.12120000492962]
網膜画像の画質は、眼の病変や不完全な画像処理のために臨床的に不満足であることが多い。
網膜画像における最も難しい品質劣化問題の1つは、一様でない照明である。
我々はNuI-Goと呼ばれる網膜画像に対する均一でない照明除去ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T04:31:33Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。