論文の概要: Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction
- arxiv url: http://arxiv.org/abs/2402.01969v1
- Date: Sat, 3 Feb 2024 00:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:59:56.040083
- Title: Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction
- Title(参考訳): 機械学習パスロス予測のためのシミュレーション強調データ拡張
- Authors: Ahmed P. Mohamed, Byunghyun Lee, Yaguang Zhang, Max Hollingsworth, C.
Robert Anderson, James V. Krogmeier, David J. Love
- Abstract要約: 本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 9.664420734674088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) offers a promising solution to pathloss prediction.
However, its effectiveness can be degraded by the limited availability of data.
To alleviate these challenges, this paper introduces a novel
simulation-enhanced data augmentation method for ML pathloss prediction. Our
method integrates synthetic data generated from a cellular coverage simulator
and independently collected real-world datasets. These datasets were collected
through an extensive measurement campaign in different environments, including
farms, hilly terrains, and residential areas. This comprehensive data
collection provides vital ground truth for model training. A set of channel
features was engineered, including geographical attributes derived from LiDAR
datasets. These features were then used to train our prediction model,
incorporating the highly efficient and robust gradient boosting ML algorithm,
CatBoost. The integration of synthetic data, as demonstrated in our study,
significantly improves the generalizability of the model in different
environments, achieving a remarkable improvement of approximately 12dB in terms
of mean absolute error for the best-case scenario. Moreover, our analysis
reveals that even a small fraction of measurements added to the simulation
training set, with proper data balance, can significantly enhance the model's
performance.
- Abstract(参考訳): 機械学習(ML)は、パスロス予測に対する有望なソリューションを提供する。
しかし、データの可用性の制限により、その効果は低下する可能性がある。
そこで本研究では,mlパスロス予測のための新しいシミュレーション強調データ拡張手法を提案する。
本手法では,セルカバレッジシミュレータから生成した合成データと,実世界のデータセットを独立に収集する。
これらのデータセットは、農場、丘陵地帯、住宅地など様々な環境での広範な測定キャンペーンを通じて収集された。
この包括的なデータ収集は、モデルトレーニングにとって重要な真実を提供します。
LiDARデータセットから派生した地理的属性を含む一連のチャネル機能を設計した。
これらの特徴は予測モデルをトレーニングするために使われ、高効率で頑健なグラデーション強化MLアルゴリズムであるCatBoostを取り入れた。
本研究で示されたように, 合成データの統合は, 異なる環境下でのモデルの一般化可能性を大幅に向上させ, 平均絶対誤差において約12dBの顕著な改善を実現している。
さらに,シミュレーショントレーニングセットに追加される少数の測定値であっても,適切なデータバランスで,モデルの性能を大幅に向上させることができることを明らかにした。
関連論文リスト
- On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential [0.0]
本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。
専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
論文 参考訳(メタデータ) (2024-09-11T20:45:44Z) - Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Improvement of Applicability in Student Performance Prediction Based on Transfer Learning [2.3290007848431955]
本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。
モデルは、その一般化能力と予測精度を高めるために訓練され、評価された。
実験により, この手法は根平均角誤差 (RMSE) と平均絶対誤差 (MAE) の低減に優れていることが示された。
結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2024-06-01T13:09:05Z) - Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets [40.19690479537335]
DA-GNNは,データセット間のタスクにおいて高い精度とロバスト性を実現する。
このことは、DA-GNNがドメインに依存しない宇宙情報を抽出するための有望な方法であることを示している。
論文 参考訳(メタデータ) (2023-11-02T20:40:21Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。