論文の概要: Representation learning from OCT images
- arxiv url: http://arxiv.org/abs/2605.02589v1
- Date: Mon, 04 May 2026 13:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.308182
- Title: Representation learning from OCT images
- Title(参考訳): OCT画像からの表現学習
- Authors: Hedi Tabia, Désiré Sidibé, Nawres Khlifa, Ahmed Tabia, Ines Rahmany, Noura Aboudi, Zainab Haddad, Hajer Khachnaoui, Hsouna Zgolli,
- Abstract要約: 本調査は網膜OCT画像解析のための表現学習手法の総合的なレビューを提供する。
初期のディープラーニングアプローチから、基礎モデルや視覚言語システムにおける最新の発展までの期間をカバーしている。
各パラダイムに対して、コア方法論的コントリビューションを分析し、永続的制約を特定し、連続したアプローチ間の接続をトレースする。
- 参考スコア(独自算出の注目度): 3.5547968544817343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Coherence Tomography (OCT) has become one of the most used imaging modality in ophthalmology. It provides high-resolution, non-invasive visualization of retinal microarchitecture. The automated analysis of OCT images through representation learning has emerged as a central research frontier. This has mainly been driven by the clinical need to process large acquisition volumes. The objective is to reduce the reliance on expert annotation, and improve diagnostic consistency across devices and populations. This survey provides a comprehensive and structured review of representation learning methods for retinal OCT image analysis. It covers the period from early deep learning approaches to the most recent developments in foundation models and vision-language systems. We organize the literature along a principled taxonomy of learning paradigms, encompassing supervised learning with CNN-based and transformer-based architectures, self-supervised and semi-supervised methods, generative approaches, as well as 3D volumetric modeling, multimodal representation learning, and large-scale pretrained foundation models. For each paradigm, we analyze the core methodological contributions, identify persistent limitations, and trace the connections between successive approaches. We further provide a structured overview of publicly available OCT datasets, discuss evaluation protocol considerations, and present a unified problem formulation that situates each learning paradigm within a common mathematical framework. Building on this analysis, we identify and discuss the most pressing open research directions emerging in the literature. This includes volumetric foundation model pretraining, uncertainty-aware representation learning, federated and privacy-preserving training, fairness and bias mitigation, concept-based interpretability,...
- Abstract(参考訳): 光コヒーレンス・トモグラフィー(OCT)は眼科において最もよく用いられる画像モダリティの1つである。
網膜微小構造を高解像度で非侵襲的に可視化する。
表現学習によるOCT画像の自動解析が中心研究フロンティアとして浮上している。
これは主に、大規模な取得ボリュームを処理するための臨床的な必要性によって引き起こされている。
目的は、専門家のアノテーションへの依存を減らし、デバイスや集団間の診断整合性を改善することである。
本調査は網膜OCT画像解析のための表現学習手法の包括的かつ構造化されたレビューを提供する。
初期のディープラーニングアプローチから、基礎モデルや視覚言語システムにおける最新の発展までの期間をカバーしている。
我々は,学習パラダイムの原則的分類体系に沿って,CNNベースおよびトランスフォーマーベースアーキテクチャによる教師付き学習,自己教師型および半教師型手法,生成的アプローチ,3次元容積モデリング,マルチモーダル表現学習,大規模事前訓練基礎モデルを含む文献を整理する。
各パラダイムに対して、コア方法論的コントリビューションを分析し、永続的制約を特定し、連続したアプローチ間の接続をトレースする。
さらに、利用可能なOCTデータセットの構造化の概要、評価プロトコルの考察、および共通の数学的枠組みの中で各学習パラダイムを構成する統一された問題定式化を提案する。
この分析に基づいて、文献に現れる最も急進的な研究方向を特定し、議論する。
これには、事前トレーニング、不確実性を認識した表現学習、フェデレーションおよびプライバシ保護トレーニング、公正性とバイアス軽減、コンセプトベースの解釈可能性などが含まれる。
関連論文リスト
- Toward a Multi-View Brain Network Foundation Model: Cross-View Consistency Learning Across Arbitrary Atlases [62.33465338932216]
MV-BrainFMは任意のアトラスで構築された脳ネットワークから一般化可能でスケーラブルな表現を学ぶために設計された多視点脳ネットワーク基盤モデルである。
17のfMRIデータセットから20万名以上の被験者を対象に行った実験では、MV-BrainFMは既存の14の脳ネットワーク基盤モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2026-03-20T11:55:00Z) - Foundation Models in Medical Image Analysis: A Systematic Review and Meta-Analysis [7.905460364844281]
ファンデーションモデル(FM)は、医療画像解析に革命をもたらし、様々な医療画像タスクにおいて、ゼロショットと少数ショットのパフォーマンスを強く証明している。
FMは、ラベル付きおよびラベルなしのマルチモーダルデータセットの大規模なコーパスを利用して、一般化された表現を学習する。
医療画像におけるFM研究の急速な普及にもかかわらず、フィールドは断片化されている。
本稿では,医療画像解析におけるFMの包括的かつ構造化された分析について述べる。
論文 参考訳(メタデータ) (2025-10-19T19:19:23Z) - Advances in Medical Image Segmentation: A Comprehensive Survey with a Focus on Lumbar Spine Applications [0.18665975431697424]
医用画像分析(MIS)は、医療画像解析の基盤として機能し、正確な治療計画や様々な医療状況のモニタリングにおいて重要な役割を担っている。
本稿では,従来の画像処理技術と最新のディープラーニング手法のギャップを埋める,MIS手法の包括的かつ体系的な調査を行う。
この調査には、しきい値検出、エッジ検出、リージョンベースのセグメンテーション、クラスタリングアルゴリズム、モデルベースのテクニックが含まれている。
論文 参考訳(メタデータ) (2025-10-01T01:34:38Z) - A Survey of Multimodal Ophthalmic Diagnostics: From Task-Specific Approaches to Foundational Models [28.34025112894094]
このレビューでは、タスク固有のマルチモーダルアプローチと大規模マルチモーダル基盤モデルという2つの主要なカテゴリに焦点を当てている。
この調査は重要なデータセット、評価指標、方法論の革新について批判的に調査している。
また、データの多様性、アノテーションの制限、解釈可能性の欠如、様々な患者集団における一般化可能性の問題など、現在進行中の課題についても論じている。
論文 参考訳(メタデータ) (2025-07-31T10:49:21Z) - Multi-Modal Foundation Models for Computational Pathology: A Survey [32.25958653387204]
基礎モデルは、計算病理学(CPath)の強力なパラダイムとして登場した。
我々は、32の最先端マルチモーダル基盤モデルを、視覚言語、視覚知識グラフ、視覚生成表現の3つの主要なパラダイムに分類する。
病理学に適した28の利用可能なマルチモーダルデータセットを分析し、画像テキストペア、命令データセット、画像以外のモダリティペアにグループ化する。
論文 参考訳(メタデータ) (2025-03-12T06:03:33Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。