論文の概要: AI-generated data contamination erodes pathological variability and diagnostic reliability
- arxiv url: http://arxiv.org/abs/2601.12946v1
- Date: Mon, 19 Jan 2026 10:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.87176
- Title: AI-generated data contamination erodes pathological variability and diagnostic reliability
- Title(参考訳): AIによるデータ汚染は病理学的多様性と診断信頼性を損なう
- Authors: Hongyu He, Shaowen Xiang, Ye Zhang, Yingtao Zhu, Jin Zhang, Hao Deng, Emily Alsentzer, Qingyu Chen, Kun-Hsing Yu, Andrew Marmenshall, Tingting Chen, Srinivas Anumasa, Daniel Ebner, Dean Ho, Kee Yuan Ngiam, Ching-Yu Cheng, Dianbo Liu,
- Abstract要約: この自己参照サイクルは, 人体検査が必須でない場合に, 病的変動と診断信頼性の急激な侵食を引き起こすことを示す。
我々の結果は、政策管理された人間の監視がなければ、生成的AIの展開は、それが依存する医療データエコシステムを劣化させる恐れがあることを示唆している。
- 参考スコア(独自算出の注目度): 16.02725915072998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (AI) is rapidly populating medical records with synthetic content, creating a feedback loop where future models are increasingly at risk of training on uncurated AI-generated data. However, the clinical consequences of this AI-generated data contamination remain unexplored. Here, we show that in the absence of mandatory human verification, this self-referential cycle drives a rapid erosion of pathological variability and diagnostic reliability. By analysing more than 800,000 synthetic data points across clinical text generation, vision-language reporting, and medical image synthesis, we find that models progressively converge toward generic phenotypes regardless of the model architecture. Specifically, rare but critical findings, including pneumothorax and effusions, vanish from the synthetic content generated by AI models, while demographic representations skew heavily toward middle-aged male phenotypes. Crucially, this degradation is masked by false diagnostic confidence; models continue to issue reassuring reports while failing to detect life-threatening pathology, with false reassurance rates tripling to 40%. Blinded physician evaluation confirms that this decoupling of confidence and accuracy renders AI-generated documentation clinically useless after just two generations. We systematically evaluate three mitigation strategies, finding that while synthetic volume scaling fails to prevent collapse, mixing real data with quality-aware filtering effectively preserves diversity. Ultimately, our results suggest that without policy-mandated human oversight, the deployment of generative AI threatens to degrade the very healthcare data ecosystems it relies upon.
- Abstract(参考訳): 生成的人工知能(AI)は、医療記録を合成コンテンツで急速に普及させており、将来のモデルが不正確なAI生成データに対するトレーニングのリスクがますます高まっているフィードバックループを形成している。
しかし、このAIが生成したデータ汚染の臨床的結果はまだ明らかにされていない。
ここでは, 強制的ヒト検定がなければ, この自己参照サイクルは, 病的変動と診断信頼性の急激な侵食を引き起こすことを示す。
臨床テキスト生成,視覚言語レポート,医用画像合成において,800,000以上の合成データポイントを解析することにより,モデル構造に関係なく,モデルが汎用表現型に徐々に収束することを見出した。
特に、気胸や灌流などの稀だが重要な発見は、AIモデルが生成する合成内容から消え、人口統計学的表現は中年男性の表現型に大きく依存する。
モデルでは、生命を危険にさらす病態を検知できず、偽の回復率を40%に抑えながら、再保証レポートを発行し続けています。
ブラインドされた医師の評価は、この信頼性と精度の分離が、わずか2世代でAI生成ドキュメントが臨床的に役に立たないことを裏付けている。
我々は,3つの緩和戦略を体系的に評価し,合成ボリュームスケーリングが崩壊を防ぐのに失敗する一方で,実データと品質に配慮したフィルタリングを混在させることで,多様性を効果的に維持できることを示した。
最終的に、私たちの結果は、政策管理された人間の監視がなければ、生成的AIの展開は、それが依存する医療データエコシステムを劣化させる恐れがあることを示唆している。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Clinically-guided Data Synthesis for Laryngeal Lesion Detection [2.573786844054239]
そこで本研究では,Lyngeal endoscopic image-annotation pairを生成するために,Latent Diffusion Model(LDM)とControlNetアダプタを併用した新しいアプローチを提案する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
論文 参考訳(メタデータ) (2025-08-08T09:55:54Z) - Towards Virtual Clinical Trials of Radiology AI with Conditional Generative Modeling [10.014130930114172]
本稿では,放射線学AIの仮想臨床試験(VCT)のために設計された条件付き生成AIモデルを紹介する。
画像と解剖学的構造の関節分布を学習することにより,実世界の患者集団の正確な再現を可能にした。
我々は,合成CTを用いたVCTを用いた放射線学AIモデルの有意義な評価を行った。
論文 参考訳(メタデータ) (2025-02-13T15:53:52Z) - Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling [6.193782515824411]
Masked Language Modeling を用いた合成自由テキスト医療記録生成システムを提案する。
このシステムは、世代ごとの多様性を導入しつつ、重要な医療情報を保存し、再識別リスクを最小限にする。
その結果,HIPAA準拠のPHIリコール率96%,再同定リスク3.5%で高品質な合成データが得られた。
論文 参考訳(メタデータ) (2024-09-15T19:11:01Z) - When AI Eats Itself: On the Caveats of AI Autophagy [18.641925577551557]
AIオートファジー現象は、生成的AIシステムが認識せずに自分たちのアウトプットを消費する未来を示唆している。
本研究では、既存の文献を調査し、AIオートファジーの結果を掘り下げ、関連するリスクを分析し、その影響を軽減するための戦略を探求する。
論文 参考訳(メタデータ) (2024-05-15T13:50:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。