論文の概要: Does Synthetic Data Help? Empirical Evidence from Deep Learning Time Series Forecasters
- arxiv url: http://arxiv.org/abs/2605.06032v1
- Date: Thu, 07 May 2026 11:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.719966
- Title: Does Synthetic Data Help? Empirical Evidence from Deep Learning Time Series Forecasters
- Title(参考訳): 合成データは役に立つか? 深層学習時系列予測者による実証的証拠
- Authors: Hugo Cazaux, Eyjólfur Ingi Ásgeirsson, Hlynur Stefánsson,
- Abstract要約: 合成データは言語モデルの訓練に変化をもたらしたが、時系列予測におけるその役割はいまだに理解されていない。
本研究では, 5 つのアーキテクチャ, 4 つの合成信号, 7 つのデータセットにまたがる合成時系列拡張を大規模に評価する実験的検討を行った。
チャネルミキシングモデル(TimesNet、iTransformer)は試験の大部分で恩恵を受け、チャネルに依存しないモデルは一貫して劣化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has transformed language model training, yet its role in time series forecasting remains poorly understood. We present a large-scale empirical study: nine experiment groups, 4,218 runs systematically evaluating synthetic time series augmentation across five architectures, four synthetic signals and seven datasets. The effect is sharply architecture-conditional: channel-mixing models (TimesNet, iTransformer) benefit in the majority of trials, while channel-independent models (DLinear, PatchTST) are consistently degraded. In selected low-resource settings the gains are striking: TimesNet trained on only 10\% of Weather data with synthetic augmentation surpasses the full-data baseline (4 of 16 sparsity-dataset combinations). Averaged across all architectures, augmentation hurts in 67\% of trials. We further find that only the Seasonal-Trend generator reliably helps across the tested benchmarks, and that hard curriculum switching is actively harmful (+24\% MSE degradation). These results provide concrete, actionable guidelines on how to use synthetic data: use synthetic augmentation with channel-mixing architectures, use gradual annealing schedules, and treat low-resource augmentation as architecture- and dataset-dependent. Code is available at \href{https://github.com/hugoiscracked/synthetic-ts/tree/main}
- Abstract(参考訳): 合成データは言語モデルの訓練に変化をもたらしたが、時系列予測におけるその役割はいまだに理解されていない。
9つの実験グループ、4,218は5つのアーキテクチャ、4つの合成信号、7つのデータセットにわたる合成時系列拡張を体系的に評価する。
チャネルミキシングモデル(TimesNet, iTransformer)は試験の大部分で恩恵を受け、チャネル非依存モデル(DLinear, PatchTST)は一貫して劣化する。
TimesNetは、人工的な拡張による気象データの10%しかトレーニングしていないが、完全なデータベースライン(16の空間とデータセットの組み合わせのうち4つ)を超えている。
すべてのアーキテクチャで平均化され、Augmentationは67%のトライアルで苦しむ。
さらに、テストベンチマークにおいて、季節トレンド生成器のみが確実に有効であり、ハードカリキュラムの切り替えは積極的に有害である(+24\% MSE劣化)。
これらの結果は、合成データの使用方法に関する具体的かつ実用的なガイドラインを提供する: チャネル混合アーキテクチャによる合成拡張の使用、段階的なアニールスケジュールの使用、低リソース拡張をアーキテクチャおよびデータセット依存として扱う。
コードは \href{https://github.com/hugoiscracked/synthetic-ts/tree/main} で入手できる。
関連論文リスト
- Synthetic Mixed Training: Scaling Parametric Knowledge Acquisition Beyond RAG [56.95387658211215]
本稿では,合成QAと合成文書を組み合わせた合成混合訓練について紹介する。
これにより、合成データボリュームとジェネレータ強度が増大するにつれて、ログリニアの改善が可能になる。
モデルとベンチマーク全体を通じて、トレーニングにより、モデルがRAGを6つの設定のうち5つで上回り、パフォーマンスが2.6%向上し、RAGと組み合わせると9.1%向上する。
論文 参考訳(メタデータ) (2026-03-24T04:32:48Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文 参考訳(メタデータ) (2024-02-01T13:59:04Z) - Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文 参考訳(メタデータ) (2023-11-02T19:49:11Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。