論文の概要: A Scoping Review of Synthetic Data Generation for Biomedical Research and Applications
- arxiv url: http://arxiv.org/abs/2506.16594v1
- Date: Thu, 19 Jun 2025 20:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.2514
- Title: A Scoping Review of Synthetic Data Generation for Biomedical Research and Applications
- Title(参考訳): バイオメディカルリサーチと応用のための合成データ生成のスコーピングレビュー
- Authors: Hanshu Rao, Weisi Liu, Haohan Wang, I-Chan Huang, Zhe He, Xiaolei Huang,
- Abstract要約: このスコーピングレビューは、PRISMA-ScRガイドラインに従い、2020年から2025年にかけて発行された59の研究を合成する。
本総説では, 合成データ生成におけるバイオメディカル研究と応用動向を体系的に検討する。
- 参考スコア(独自算出の注目度): 14.474692807778096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation--mitigating data scarcity, privacy concerns, and data quality challenges in biomedical fields--has been facilitated by rapid advances of large language models (LLMs). This scoping review follows PRISMA-ScR guidelines and synthesizes 59 studies, published between 2020 and 2025 and collected from PubMed, ACM, Web of Science, and Google Scholar. The review systematically examines biomedical research and application trends in synthetic data generation, emphasizing clinical applications, methodologies, and evaluations. Our analysis identifies data modalities of unstructured texts (78.0%), tabular data (13.6%), and multimodal sources (8.4%); generation methods of prompting (72.9%), fine-tuning (22.0%) LLMs and specialized model (5.1%); and heterogeneous evaluations of intrinsic metrics (27.1%), human-in-the-loop assessments (55.9%), and LLM-based evaluations (13.6%). The analysis addresses current limitations in what, where, and how health professionals can leverage synthetic data generation for biomedical domains. Our review also highlights challenges in adaption across clinical domains, resource and model accessibility, and evaluation standardizations.
- Abstract(参考訳): バイオメディカル分野におけるデータ不足、プライバシーの懸念、データ品質の課題を緩和する合成データ生成は、大規模言語モデル(LLM)の急速な進歩によって促進されている。
このスコーピングレビューは、PRISMA-ScRガイドラインに従い、2020年から2025年の間に出版され、PubMed、ACM、Web of Science、Google Scholarから収集された59の研究を合成する。
本総説は, 臨床応用, 方法, 評価を重点として, 合成データ生成におけるバイオメディカル研究と応用動向を体系的に検討するものである。
本分析では,非構造化テキスト(78.0%),表型データ(13.6%),マルチモーダルソース(8.4%),プロンプト(72.9%),微調整(22.0%),特殊モデル(5.1%),内在指標(27.1%),ループ内評価(55.9%),LCMに基づく評価(13.6%)のデータモダリティを明らかにした。
この分析は、医療専門家がバイオメディカルドメインの合成データ生成をどのように活用できるかという現在の制限に対処する。
また,臨床領域への適応,資源・モデルアクセシビリティ,評価標準化の課題も紹介した。
関連論文リスト
- Large Language Models for Bioinformatics [58.892165394487414]
本調査はバイオインフォマティクス特化言語モデル(BioLM)の進化,分類,特徴の識別に焦点をあてる。
疾患診断, 薬物発見, ワクチン開発などの重要な分野において, バイオフィルムの幅広い応用について検討する。
データプライバシやセキュリティ上の問題,解釈可能性の問題,トレーニングデータやモデル出力のバイアス,ドメイン適応複雑性など,BioLMに固有の重要な課題や制限を特定します。
論文 参考訳(メタデータ) (2025-01-10T01:43:05Z) - A Review on Generative AI Models for Synthetic Medical Text, Time Series, and Longitudinal Data [0.3374875022248865]
本稿では3種類の合成健康記録(SHR)を作成するための実用モデルに関する新しいスコーピングレビューの結果について述べる。
52の出版物が医療時系列(22件)、縦断データ(17件)、医用テキスト(13件)を生成するための適格基準を満たした。
プライバシー保護は研究論文の主要な研究目的であり,他の目的として,クラス不均衡,データ不足,データ改ざんなどがあった。
論文 参考訳(メタデータ) (2024-11-19T06:53:54Z) - Bridging Data Gaps in Healthcare: A Scoping Review of Transfer Learning in Biomedical Data Analysis [10.185052276452867]
低リソース環境における臨床および生医学的な研究は、有効なモデルを構築するのに十分なサンプルサイズを持つ高品質なデータを必要とするため、しばしば課題に直面している。
これらの制約は、堅牢なモデルトレーニングを妨げ、研究者は、関連する研究から既存の知識を活用して新しい研究活動を支援する方法を模索する。
機械学習技術であるトランスファーラーニング(TL)は、事前訓練されたモデルからの知識を活用して、新しいモデルの性能を向上させることで、強力なソリューションとして現れる。
論文 参考訳(メタデータ) (2024-07-04T23:34:20Z) - Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Privacy-Preserving Statistical Data Generation: Application to Sepsis Detection [13.445454471355214]
分類問題に適用可能な合成データ生成のための統計的アプローチを提案する。
Kernel density Estimator と K-Nearest Neighbors sample (KDE-KNN) によって生成された合成データの実用性とプライバシーへの影響を実世界の文脈で評価する。
論文 参考訳(メタデータ) (2024-04-25T14:26:53Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Applications of artificial intelligence in the analysis of histopathology images of gliomas: a review [0.33999813472511115]
本稿では,ヒトグリオーマの全スライディング組織像に対するAIベースの手法を提案する83の公開研究について検討する。
現在の研究の焦点は、成人型びまん性グリオーマのヘマトキシリンおよびエオシン染色組織分画の評価である。
これまでのところ、AIベースの手法は有望な成果を上げているが、実際の臨床環境ではまだ使われていない。
論文 参考訳(メタデータ) (2024-01-26T17:29:01Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。