Fugu-MT 論文翻訳(概要): Simulation-Enhanced Data Augmentation for Machine Learning Pathloss Prediction

論文の概要: Simulation-Enhanced Data Augmentation for Machine Learning Pathloss Prediction

arxiv url: http://arxiv.org/abs/2402.01969v2
Date: Tue, 6 Feb 2024 03:22:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 11:23:49.894481
Title: Simulation-Enhanced Data Augmentation for Machine Learning Pathloss Prediction
Title（参考訳）: 機械学習パスロス予測のためのシミュレーション強調データ拡張
Authors: Ahmed P. Mohamed, Byunghyun Lee, Yaguang Zhang, Max Hollingsworth, C. Robert Anderson, James V. Krogmeier, David J. Love
Abstract要約: 本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
参考スコア（独自算出の注目度）: 9.664420734674088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) offers a promising solution to pathloss prediction. However, its effectiveness can be degraded by the limited availability of data. To alleviate these challenges, this paper introduces a novel simulation-enhanced data augmentation method for ML pathloss prediction. Our method integrates synthetic data generated from a cellular coverage simulator and independently collected real-world datasets. These datasets were collected through an extensive measurement campaign in different environments, including farms, hilly terrains, and residential areas. This comprehensive data collection provides vital ground truth for model training. A set of channel features was engineered, including geographical attributes derived from LiDAR datasets. These features were then used to train our prediction model, incorporating the highly efficient and robust gradient boosting ML algorithm, CatBoost. The integration of synthetic data, as demonstrated in our study, significantly improves the generalizability of the model in different environments, achieving a remarkable improvement of approximately 12dB in terms of mean absolute error for the best-case scenario. Moreover, our analysis reveals that even a small fraction of measurements added to the simulation training set, with proper data balance, can significantly enhance the model's performance.
Abstract（参考訳）: 機械学習(ML)は、パスロス予測に対する有望なソリューションを提供する。しかし、データの可用性の制限により、その効果は低下する可能性がある。そこで本研究では,mlパスロス予測のための新しいシミュレーション強調データ拡張手法を提案する。本手法では,セルカバレッジシミュレータから生成した合成データと,実世界のデータセットを独立に収集する。これらのデータセットは、農場、丘陵地帯、住宅地など様々な環境での広範な測定キャンペーンを通じて収集された。この包括的なデータ収集は、モデルトレーニングにとって重要な真実を提供します。 LiDARデータセットから派生した地理的属性を含む一連のチャネル機能を設計した。これらの特徴は予測モデルをトレーニングするために使われ、高効率で頑健なグラデーション強化MLアルゴリズムであるCatBoostを取り入れた。本研究で示されたように, 合成データの統合は, 異なる環境下でのモデルの一般化可能性を大幅に向上させ, 平均絶対誤差において約12dBの顕著な改善を実現している。さらに,シミュレーショントレーニングセットに追加される少数の測定値であっても,適切なデータバランスで,モデルの性能を大幅に向上させることができることを明らかにした。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文参考訳（メタデータ） (2025-08-19T05:45:02Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文参考訳（メタデータ） (2025-03-06T16:04:01Z)
On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文参考訳（メタデータ） (2024-10-19T22:14:07Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential [0.0]
本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
論文参考訳（メタデータ） (2024-09-11T20:45:44Z)
Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文参考訳（メタデータ） (2024-09-10T07:34:19Z)
Improvement of Applicability in Student Performance Prediction Based on Transfer Learning [2.3290007848431955]
本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。モデルは、その一般化能力と予測精度を高めるために訓練され、評価された。実験により, この手法は根平均角誤差 (RMSE) と平均絶対誤差 (MAE) の低減に優れていることが示された。結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。
論文参考訳（メタデータ） (2024-06-01T13:09:05Z)
Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets [40.19690479537335]
DA-GNNは,データセット間のタスクにおいて高い精度とロバスト性を実現する。このことは、DA-GNNがドメインに依存しない宇宙情報を抽出するための有望な方法であることを示している。
論文参考訳（メタデータ） (2023-11-02T20:40:21Z)
Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2023-10-10T10:48:52Z)
Exploring the Effectiveness of Dataset Synthesis: An application of Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文参考訳（メタデータ） (2023-06-20T09:46:01Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-10-19T14:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。