論文の概要: The Learnability Gap in Medical Latent Diffusion
- arxiv url: http://arxiv.org/abs/2605.17087v1
- Date: Sat, 16 May 2026 17:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.60214
- Title: The Learnability Gap in Medical Latent Diffusion
- Title(参考訳): 医用潜伏拡散における学習性ギャップ
- Authors: Mischa Dombrowski, Felix Nützel, Bernhard Kainz,
- Abstract要約: 遅延拡散モデルによる生成データの増大は、医用画像におけるクラス不均衡に対処する上で有望な戦略である。
大規模事前学習型オートエンコーダは、医学的分類のための識別的特徴を忠実に符号化する。
画像空間モデルよりも64倍のスループットと120倍のメモリゲインを提供するFLM層と画像空間蒸留を用いた雑音条件付き潜時分類器を開発した。
- 参考スコア(独自算出の注目度): 10.504309161945065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative data augmentation with latent diffusion models is a promising strategy for addressing class imbalance in medical imaging, yet current approaches focus on perceptual fidelity and domain-specific autoencoder fine-tuning while neglecting a more fundamental bottleneck. We identify and formalize the learnability gap: large-scale pretrained autoencoders faithfully encode discriminative features for medical classification, as evidenced by near-lossless performance in reconstruction space, yet their latent representations are structured in ways that are difficult for classifiers to learn from. Across five autoencoder families and four medical benchmarks spanning chest radiography, dermatoscopy, computed tomography, and echocardiography, we show that this gap persists regardless of architecture, initialization strategy, or hyperparameter tuning, and that medical-domain fine-tuning of the autoencoder does not close it. To probe and partially narrow the gap, we develop noise-conditioned latent classifiers with FiLM layers and image-space distillation that offer 64x throughput and 120x memory gains over image-space models while serving as diagnostic tools for latent space quality. Our analysis provides a new framework for evaluating autoencoder latent spaces and identifies their structure, rather than their fidelity or domain specificity, as the primary obstacle to closing the performance gap between real and synthetic medical training data.
- Abstract(参考訳): 遅延拡散モデルによる生成データの増大は、医用画像におけるクラス不均衡に対処するための有望な戦略であるが、現在のアプローチは、より基本的なボトルネックを無視しつつ、知覚的忠実度とドメイン固有のオートエンコーダの微調整に焦点を当てている。
大規模事前訓練されたオートエンコーダは、再構成空間におけるほぼ無作為な性能によって証明された、医療分類のための識別的特徴を忠実に符号化するが、それらの潜在表現は、分類器が学ぶのが難しい方法で構成される。
胸部X線撮影, CT, 心エコー検査を対象とし, 5つのオートエンコーダファミリーと4つの医療ベンチマークを対象とし, このギャップは建築, 初期化戦略, ハイパーパラメータチューニングによらず持続し, オートエンコーダの医療領域の微調整は閉鎖しないことを示した。
ギャップを部分的に狭めるために,FLM層を用いた雑音条件付潜時分類器を開発し,64倍スループットと120倍メモリゲインを画像空間モデル上で実現し,潜時空間品質の診断ツールとして機能する。
本分析は, 自己エンコーダの潜在空間を評価するための新しい枠組みを提供し, 実際の医療訓練データと合成医療訓練データのパフォーマンスギャップを埋める主要な障害として, 自己エンコーダの忠実さや領域特異性ではなく, それらの構造を同定する。
関連論文リスト
- Continual Learning for fMRI-Based Brain Disorder Diagnosis via Functional Connectivity Matrices Generative Replay [29.68388420763425]
異種臨床現場におけるfMRIによる診断に特化して設計された最初の連続学習フレームワークを提案する。
本フレームワークでは,患者群と制御群の両方で現実的なFC行列を合成する構造対応変分オートエンコーダを提案する。
重度抑うつ障害(MDD)、統合失調症(SZ)、自閉症スペクトラム障害(ASD)に対する多地点データセットの実験は、提案した生成モデルがデータ拡張品質を向上させることを示す。
論文 参考訳(メタデータ) (2026-04-15T16:08:52Z) - Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。
モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。
この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文 参考訳(メタデータ) (2026-04-13T03:59:54Z) - Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation [12.941925130242039]
ACADiffは、行方不明の脳画像モダリティを合成するフレームワークである。
不完全なマルチモーダル観測と目標モダリティの間のマッピングを、段階的に潜在表現を認知することによって学習する。
生成品質が向上し、80%の不足シナリオでも堅牢な診断性能を維持する。
論文 参考訳(メタデータ) (2026-03-10T17:26:45Z) - Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - Robust Noisy Pseudo-label Learning for Semi-supervised Medical Image Segmentation Using Diffusion Model [5.158113225132093]
半教師付き医用画像セグメンテーションは、限られた注釈付きデータと豊富なラベルなしデータを利用して正確なセグメンテーションを実現することを目的としている。
既存の手法は、擬似ラベルが導入したノイズにより、潜在空間における意味分布を構成するのにしばしば苦労する。
提案手法は,プロトタイプに基づくコントラッシブコントラストの整合性を強制することにより,意味ラベルの遅延構造に制約を導入する。
論文 参考訳(メタデータ) (2025-07-22T10:21:55Z) - Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation [21.738308923180767]
心エコービデオ表現学習のための自己教師型デュアルブランチフレームワークであるdisCOVRについて述べる。
DISCOVRは、時間的ダイナミクスをモデル化するクラスタリングベースのビデオエンコーダと、きめ細かい空間意味論を抽出するオンライン画像エンコーダを組み合わせる。
論文 参考訳(メタデータ) (2025-06-13T13:36:33Z) - Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images [0.0]
本稿では,DINOv2をエンコーダとしてUNetスタイルのデコーダと統合するフレームワークを提案する。
LAScarQS 2022データセットに対する我々のアプローチを検証するとともに、92.3%のDiceと84.1%のIoUスコアで巨大なアーキテクチャの性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-10T16:12:46Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。