論文の概要: Studying the Role of Synthetic Data for Machine Learning-based Wireless Networks Traffic Forecasting
- arxiv url: http://arxiv.org/abs/2601.07646v1
- Date: Mon, 12 Jan 2026 15:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.509952
- Title: Studying the Role of Synthetic Data for Machine Learning-based Wireless Networks Traffic Forecasting
- Title(参考訳): 機械学習に基づく無線トラフィック予測における合成データの役割に関する研究
- Authors: José Pulido, Francesc Wilhelmi, Sergio Fortes, Alfonso Fernández-Durán, Lorenzo Galati Giordano, Raquel Barco,
- Abstract要約: 本稿では,大規模Wi-Fi展開のための一階自動回帰雑音統計量に基づく合成データ生成手法を提案する。
実験結果から, 実データを用いて得られた10~15項目のうち, 平均絶対誤差(MAE)値が得られた。
一般化が必要な場合、合成データ学習モデルは、実データ学習ベースラインと比較して、予測精度を最大50%向上させる。
- 参考スコア(独自算出の注目度): 1.1699027359021665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation is an appealing tool for augmenting and enriching datasets, playing a crucial role in advancing artificial intelligence (AI) and machine learning (ML). Not only does synthetic data help build robust AI/ML datasets cost-effectively, but it also offers privacy-friendly solutions and bypasses the complexities of storing large data volumes. This paper proposes a novel method to generate synthetic data, based on first-order auto-regressive noise statistics, for large-scale Wi-Fi deployments. The approach operates with minimal real data requirements while producing statistically rich traffic patterns that effectively mimic real Access Point (AP) behavior. Experimental results show that ML models trained on synthetic data achieve Mean Absolute Error (MAE) values within 10 to 15 of those obtained using real data when trained on the same APs, while requiring significantly less training data. Moreover, when generalization is required, synthetic-data-trained models improve prediction accuracy by up to 50 percent compared to real-data-trained baselines, thanks to the enhanced variability and diversity of the generated traces. Overall, the proposed method bridges the gap between synthetic data generation and practical Wi-Fi traffic forecasting, providing a scalable, efficient, and real-time solution for modern wireless networks.
- Abstract(参考訳): 合成データ生成は、データセットの強化と強化のための魅力的なツールであり、人工知能(AI)と機械学習(ML)を前進させる上で重要な役割を果たす。
合成データは、堅牢なAI/MLデータセットをコスト効率よく構築するのに役立つだけでなく、プライバシフレンドリなソリューションを提供し、大規模なデータボリュームを格納する複雑さを回避します。
本稿では,大規模Wi-Fi展開のための一階自動回帰雑音統計量に基づく合成データ生成手法を提案する。
このアプローチは、実際のアクセスポイント(AP)の振る舞いを効果的に模倣する統計的にリッチなトラフィックパターンを生成しながら、最小限の実際のデータ要件で動作する。
実験の結果, 合成データに基づいてトレーニングしたMLモデルは, 同じAPでトレーニングした実データから得られた平均絶対誤差(MAE)を10~15の範囲で達成し, トレーニングデータも大幅に少ないことがわかった。
さらに、一般化が必要な場合には、生成したトレースの変動性と多様性の強化により、実データ学習ベースラインと比較して、合成データ学習モデルにより予測精度が最大50%向上する。
提案手法は, 合成データ生成と実用的なWi-Fiトラフィック予測のギャップを埋めることにより, 最新の無線ネットワークにおいて, スケーラブルで効率的かつリアルタイムなソリューションを提供する。
関連論文リスト
- Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic flow-based cryptomining attack generation through Generative
Adversarial Networks [1.2575897140677708]
マシンラーニングコンポーネントのパフォーマンス向上には,フローベースのデータセットが不可欠だ。
データプライバシは,このようなネットワークデータを処理する上で,強い要件としてますます現れています。
本稿では,GANが生成する合成データの質を測定するための新しい決定論的手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T17:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。