論文の概要: Generating Heterogeneous Multi-dimensional Data : A Comparative Study
- arxiv url: http://arxiv.org/abs/2507.00090v1
- Date: Mon, 30 Jun 2025 09:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.351771
- Title: Generating Heterogeneous Multi-dimensional Data : A Comparative Study
- Title(参考訳): 異種多次元データの生成 : 比較研究
- Authors: Corbeau Michael, Claeys Emmanuelle, Serrurier Mathieu, Zaraté Pascale,
- Abstract要約: ランダムサンプリング,タブラリ変分オートエンコーダ,標準生成逆数ネットワーク,条件付きタブラリ生成逆数ネットワーク,拡散確率モデルなどの手法について検討した。
このギャップに対処するために、消防ドメインに合わせて調整されたドメイン固有のメトリクスの組み合わせを用いて、合成データ品質の評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Allocation of personnel and material resources is highly sensible in the case of firefighter interventions. This allocation relies on simulations to experiment with various scenarios. The main objective of this allocation is the global optimization of the firefighters response. Data generation is then mandatory to study various scenarios In this study, we propose to compare different data generation methods. Methods such as Random Sampling, Tabular Variational Autoencoders, standard Generative Adversarial Networks, Conditional Tabular Generative Adversarial Networks and Diffusion Probabilistic Models are examined to ascertain their efficacy in capturing the intricacies of firefighter interventions. Traditional evaluation metrics often fall short in capturing the nuanced requirements of synthetic datasets for real-world scenarios. To address this gap, an evaluation of synthetic data quality is conducted using a combination of domain-specific metrics tailored to the firefighting domain and standard measures such as the Wasserstein distance. Domain-specific metrics include response time distribution, spatial-temporal distribution of interventions, and accidents representation. These metrics are designed to assess data variability, the preservation of fine and complex correlations and anomalies such as event with a very low occurrence, the conformity with the initial statistical distribution and the operational relevance of the synthetic data. The distribution has the particularity of being highly unbalanced, none of the variables following a Gaussian distribution, adding complexity to the data generation process.
- Abstract(参考訳): 人的資源の配分は、消防士の介入の場合、非常に合理的である。
この割り当ては様々なシナリオを実験するためにシミュレーションに依存する。
この割り当ての主な目的は、消防士の反応のグローバルな最適化である。
そこで本研究では,異なるデータ生成手法を比較することを提案する。
ランダムサンプリング,タブラリ変分オートエンコーダ,標準生成逆数ネットワーク,条件付き Tabular Generative Adversarial Networks および拡散確率モデルなどの手法を検討した。
従来の評価指標は、実世界のシナリオに対する合成データセットのニュアンスな要求を捉えるのに不足することが多い。
このギャップに対処するために、消防ドメインに合わせたドメイン固有の指標と、ワッサーシュタイン距離などの標準指標を組み合わせて、合成データ品質の評価を行う。
ドメイン固有のメトリクスには、応答時間分布、介入の時空間分布、事故表現が含まれる。
これらの指標は, データの変動性, 微細で複雑な相関関係の保存, 発生頻度の低い事象, 初期統計分布との整合性, 合成データの操作的関連性などの異常を評価するために設計されている。
分布は高度に不均衡であり、ガウス分布に続く変数は一切なく、データ生成プロセスに複雑さを加える。
関連論文リスト
作成中
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。