論文の概要: Synthetic Data Alone is Enough? Rethinking Data Scarcity in Pediatric Rare Disease Recognition
- arxiv url: http://arxiv.org/abs/2605.22767v1
- Date: Thu, 21 May 2026 17:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.376698
- Title: Synthetic Data Alone is Enough? Rethinking Data Scarcity in Pediatric Rare Disease Recognition
- Title(参考訳): 人工データアローンは十分か? 小児腎疾患の診断におけるデータスカシティの再考
- Authors: Ganlin Feng, Yuxi Long, Erin Lou, Lianghong Chen, Zihao Jing, Pingzhao Hu, Wei Xu,
- Abstract要約: 小児まれな疾患認識のための合成専用体制について検討した。
合成のみのトレーニングは、実データのみのベースラインに匹敵するパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.1384103854326675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children with rare genetic diseases often exhibit distinctive facial phenotypes, yet developing computer vision systems for early diagnosis remains challenging due to extreme data scarcity, privacy constraints, and limited data sharing in pediatric settings. These challenges not only hinder automated diagnosis but also restrict the availability of visual resources for clinical genetic counseling. While prior work has shown that synthetic data can augment real datasets and preserve phenotype-level semantics, it remains unclear whether synthetic data alone is sufficient for learning in ultra-low-resource pediatric settings. In this work, we study the synthetic-only regime for pediatric rare disease recognition. Under a controlled experimental setup, models are trained exclusively on phenotype-aware synthetic facial images at increasing scales. We find that synthetic-only training achieves performance comparable to real-data-only baselines at sufficient scale across multiple backbones, suggesting that high-fidelity synthetic data can approximate clinically meaningful distributions. These findings together further enable the use of synthetic pediatric facial images as privacy-preserving resources for genetic education and counseling, supporting clinician training and patient communication. Our results highlight the potential of computer vision to improve data efficiency and expand accessible visual tools in children's healthcare.
- Abstract(参考訳): 稀な遺伝疾患を持つ子供たちは、しばしば特徴的な顔の表現型を示すが、異常なデータ不足、プライバシーの制約、小児の環境での限られたデータ共有のため、早期診断のためのコンピュータビジョンシステムの開発は依然として困難である。
これらの課題は、自動診断の妨げとなるだけでなく、臨床遺伝カウンセリングのためのビジュアルリソースの入手を制限している。
以前の研究では、合成データが実際のデータセットを増大させ、表現型レベルのセマンティクスを保存できることが示されているが、合成データだけでは超低リソースの小児科における学習に十分かどうかは不明である。
本研究は,小児まれな疾患認識のための合成専用体制について検討する。
制御された実験装置の下では、モデルは表現型対応の合成顔画像にのみ訓練される。
複数のバックボーンにまたがって, 実データのみのベースラインに匹敵する性能を達成し, 高忠実度合成データが臨床的に有意な分布を近似できることが示唆された。
これらの知見により、総合的な小児顔面画像が、遺伝教育やカウンセリングのためのプライバシ保護資源として活用され、臨床研修や患者とのコミュニケーションを支援することができる。
本研究は, コンピュータビジョンによるデータ効率の向上と, 小児医療における視覚ツールの活用の可能性を明らかにするものである。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Image Distillation for Safe Data Sharing in Histopathology [10.398266052019675]
病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。
深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。
私たちは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成します。
我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T13:19:08Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms [2.032684842401705]
Health Gymは、機械学習アルゴリズムのプロトタイプ、評価、比較に自由にアクセス可能な、合成医療データセットのコレクションである。
このデータセットはGAN(Generative Adversarial Network)を用いて作成された。
合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
論文 参考訳(メタデータ) (2022-03-12T07:28:02Z) - Overcoming Barriers to Data Sharing with Medical Image Generation: A
Comprehensive Evaluation [17.983449515155414]
我々は、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。
合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。
合成画像の品質は、合成データセットと実データセットの両方で訓練された予測モデルの性能差によって測定する。
論文 参考訳(メタデータ) (2020-11-29T15:41:46Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。