論文の概要: Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data
- arxiv url: http://arxiv.org/abs/2505.14206v1
- Date: Tue, 20 May 2025 11:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.08422
- Title: Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data
- Title(参考訳): mHealth Sensor Dataの合成生成における課題と限界
- Authors: Flavio Di Martino, Franca Delmastro,
- Abstract要約: 本稿では,合成データの本質的品質と,下流予測タスクにおける有用性の両方を測定するために設計された新しい評価フレームワークを提案する。
以上の結果から,既存のアプローチ,特に相互整合性を維持する上での限界が明らかとなった。
我々は,mHealthにおける合成時系列生成の促進と生成モデルの適用性向上に向けた今後の研究方針を述べる。
- 参考スコア(独自算出の注目度): 3.10770247120758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of mobile sensors has the potential to provide massive and heterogeneous time series data, driving Artificial Intelligence applications in mHealth. However, data collection remains limited due to stringent ethical regulations, privacy concerns, and other constraints, hindering progress in the field. Synthetic data generation, particularly through Generative Adversarial Networks and Diffusion Models, has emerged as a promising solution to address both data scarcity and privacy issues. Yet, these models are often limited to short-term, unimodal signal patterns. This paper presents a systematic evaluation of state-of-the-art generative models for time series synthesis, with a focus on their ability to jointly handle multi-modality, long-range dependencies, and conditional generation-key challenges in the mHealth domain. To ensure a fair comparison, we introduce a novel evaluation framework designed to measure both the intrinsic quality of synthetic data and its utility in downstream predictive tasks. Our findings reveal critical limitations in the existing approaches, particularly in maintaining cross-modal consistency, preserving temporal coherence, and ensuring robust performance in train-on-synthetic, test-on-real, and data augmentation scenarios. Finally, we present our future research directions to enhance synthetic time series generation and improve the applicability of generative models in mHealth.
- Abstract(参考訳): モバイルセンサーの普及により、mHealthの人工知能アプリケーションを駆動し、大規模で異質な時系列データを提供する可能性がある。
しかし、データ収集は厳格な倫理的規制、プライバシーに関する懸念、その他の制約のために制限されており、この分野の進歩を妨げる。
合成データ生成、特にGenerative Adversarial NetworksとDiffusion Modelsを通じて、データの不足とプライバシの問題に対処するための有望なソリューションとして登場した。
しかし、これらのモデルはしばしば短期的かつ単調な信号パターンに制限される。
本稿では,mHealth領域における多モード性,長距離依存性,条件付き生成キー課題を共同で扱う能力に着目し,時系列合成のための最先端生成モデルの体系的評価を行う。
そこで本研究では,合成データの本質的品質と,下流予測タスクにおける有用性の両方を測定するための,新たな評価フレームワークを提案する。
本研究は,既存のアプローチ,特にクロスモーダル一貫性の維持,時間的コヒーレンス維持,およびトレイン・オン・シンセティック,テスト・オン・リアル,データ拡張シナリオにおけるロバストなパフォーマンスの確保において,重要な制約を明らかにした。
最後に,mHealthにおける合成時系列生成の促進と生成モデルの適用性向上に向けた今後の研究方針について述べる。
関連論文リスト
- KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation [0.0]
生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
論文 参考訳(メタデータ) (2024-09-25T19:50:03Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Generating synthetic multi-dimensional molecular-mediator time series
data for artificial intelligence-based disease trajectory forecasting and
drug development digital twins: Considerations [0.0]
合成データの利用は、ニューラルネットワークベースの人工知能(AI)システムの開発における重要なステップとして認識されている。
このタイプの合成データを生成する統計的およびデータ中心の機械学習手段の欠如は、要因の組み合わせによるものである。
多次元時系列データの特定因子を考慮に入れた合成データの生成は、仲介者・バイオマーカーに基づくAI予測システムの開発に欠かせない能力である。
論文 参考訳(メタデータ) (2023-03-16T03:13:53Z) - Generating Synthetic Mixed-type Longitudinal Electronic Health Records
for Artificial Intelligent Applications [9.374416143268892]
EHR-M-GAN (Generative Adversarial Network, GAN) は、EHRデータを合成する。
EHR-M-GANは,141,488名の患者を対象とし,3つの公用集中治療単位データベース上で検証した。
論文 参考訳(メタデータ) (2021-12-22T17:17:34Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。