論文の概要: Beyond the Norm: A Survey of Synthetic Data Generation for Rare Events
- arxiv url: http://arxiv.org/abs/2506.06380v1
- Date: Wed, 04 Jun 2025 20:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.243939
- Title: Beyond the Norm: A Survey of Synthetic Data Generation for Rare Events
- Title(参考訳): ノームを超えて: 希少イベントのための合成データ生成に関する調査
- Authors: Jingyi Gu, Xuan Zhang, Guiling Wang,
- Abstract要約: 市場崩壊、自然災害、パンデミックなどの極端な出来事は稀だが大惨事である。
データ駆動型メソッドは、極端なイベントモデリングに強力な機能を提供するが、豊富なトレーニングデータを必要とするが、極端なイベントデータは本質的に不足している。
この調査は、極端な事象に対する合成データ生成の最初の概要を提供する。
- 参考スコア(独自算出の注目度): 5.619671817895425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extreme events, such as market crashes, natural disasters, and pandemics, are rare but catastrophic, often triggering cascading failures across interconnected systems. Accurate prediction and early warning can help minimize losses and improve preparedness. While data-driven methods offer powerful capabilities for extreme event modeling, they require abundant training data, yet extreme event data is inherently scarce, creating a fundamental challenge. Synthetic data generation has emerged as a powerful solution. However, existing surveys focus on general data with privacy preservation emphasis, rather than extreme events' unique performance requirements. This survey provides the first overview of synthetic data generation for extreme events. We systematically review generative modeling techniques and large language models, particularly those enhanced by statistical theory as well as specialized training and sampling mechanisms to capture heavy-tailed distributions. We summarize benchmark datasets and introduce a tailored evaluation framework covering statistical, dependence, visual, and task-oriented metrics. A central contribution is our in-depth analysis of each metric's applicability in extremeness and domain-specific adaptations, providing actionable guidance for model evaluation in extreme settings. We categorize key application domains and identify underexplored areas like behavioral finance, wildfires, earthquakes, windstorms, and infectious outbreaks. Finally, we outline open challenges, providing a structured foundation for advancing synthetic rare-event research.
- Abstract(参考訳): 市場崩壊、自然災害、パンデミックなどの極端な出来事は稀だが破滅的であり、しばしば相互接続されたシステムにカスケード障害を引き起こす。
正確な予測と早期警告は、損失を最小限に抑え、準備性を改善するのに役立つ。
データ駆動型メソッドは、極端なイベントモデリングに強力な機能を提供するが、豊富なトレーニングデータを必要とするが、極端なイベントデータは本質的に不足しており、根本的な課題を生み出している。
合成データ生成は強力なソリューションとして登場した。
しかし、既存の調査では、極端なイベントのユニークなパフォーマンス要件ではなく、プライバシ保護を重視した一般的なデータに焦点を当てている。
この調査は、極端な事象に対する合成データ生成の最初の概要を提供する。
本稿では,大規模言語モデル,特に統計理論によって強化されたモデル,ならびに重み付き分布を捉えるための特別な訓練・サンプリング機構を体系的に検討する。
ベンチマークデータセットを要約し、統計量、依存度、視覚量、タスク指向のメトリクスをカバーする調整された評価フレームワークを導入する。
中心的な貢献は、極度およびドメイン固有の適応における各メトリックの適用可能性の詳細な分析であり、極端な設定におけるモデル評価のための実行可能なガイダンスを提供する。
主要な適用領域を分類し、行動金融、山火事、地震、暴風雨、伝染病などの未発見領域を特定します。
最後に、オープンな課題を概説し、合成希少な研究を進めるための構造化された基盤を提供する。
関連論文リスト
- Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights [0.0]
この研究は、テストデータに近接してトレーニングサンプルを優先順位付けする半教師付きフレームワークを提案する。
12のベンチマークデータセットの実験では、精度、精度、リコールなど、主要なメトリクス間で大幅な改善が示されている。
このフレームワークは、半教師付き学習のための堅牢で実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-20T13:29:04Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Beyond Data Scarcity: A Frequency-Driven Framework for Zero-Shot Forecasting [15.431513584239047]
時系列予測は多くの現実世界の応用において重要である。
従来の予測技術は、データが不足しているか、全く利用できない場合に苦労する。
近年の進歩は、このようなタスクに大規模な基礎モデルを活用することが多い。
論文 参考訳(メタデータ) (2024-11-24T07:44:39Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Conditioning on Time is All You Need for Synthetic Survival Data Generation [16.401141867387324]
本稿では,イベント時間に条件付き共変数を生成し,インジケータを検閲することにより,合成生存データを生成するための簡単なパラダイムを提案する。
提案手法は,サバイバルデータの生成において,複数の競争ベースラインを上回りながら,トレーニングした下流サバイバルモデルの性能を向上し,実データでテストする。
論文 参考訳(メタデータ) (2024-05-27T16:34:18Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Data-Centric Epidemic Forecasting: A Survey [56.99209141838794]
この調査は、様々なデータ駆動の方法論および実践的進歩を掘り下げるものである。
疫学的なデータセットと,流行予測に関連する新しいデータストリームを列挙する。
また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。
論文 参考訳(メタデータ) (2022-07-19T16:15:11Z) - Event Prediction in the Big Data Era: A Systematic Survey [7.3810864598379755]
ビッグデータ時代において、イベント予測は実行可能な選択肢になりつつある。
本稿では,イベント予測の技術,応用,評価について,体系的かつ包括的な調査を行うことを目的とする。
論文 参考訳(メタデータ) (2020-07-19T23:24:52Z) - A Multi-Channel Neural Graphical Event Model with Negative Evidence [76.51278722190607]
イベントデータセットは、タイムライン上で不規則に発生するさまざまなタイプのイベントのシーケンスである。
基礎となる強度関数を推定するために,非パラメトリックディープニューラルネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T23:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。