論文の概要: Generating Heterogeneous Multi-dimensional Data : A Comparative Study
- arxiv url: http://arxiv.org/abs/2507.00090v2
- Date: Wed, 09 Jul 2025 15:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.029261
- Title: Generating Heterogeneous Multi-dimensional Data : A Comparative Study
- Title(参考訳): 異種多次元データの生成 : 比較研究
- Authors: Michael Corbeau, Emmanuelle Claeys, Mathieu Serrurier, Pascale Zaraté,
- Abstract要約: ランダムサンプリング,タブラリ変分オートエンコーダ,標準生成逆数ネットワーク,条件付きタブラリ生成逆数ネットワーク,拡散確率モデルなどの手法について検討した。
このギャップに対処するために、消防ドメインに合わせて調整されたドメイン固有のメトリクスの組み合わせを用いて、合成データ品質の評価を行う。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Allocation of personnel and material resources is highly sensible in the case of firefighter interventions. This allocation relies on simulations to experiment with various scenarios. The main objective of this allocation is the global optimization of the firefighters response. Data generation is then mandatory to study various scenarios In this study, we propose to compare different data generation methods. Methods such as Random Sampling, Tabular Variational Autoencoders, standard Generative Adversarial Networks, Conditional Tabular Generative Adversarial Networks and Diffusion Probabilistic Models are examined to ascertain their efficacy in capturing the intricacies of firefighter interventions. Traditional evaluation metrics often fall short in capturing the nuanced requirements of synthetic datasets for real-world scenarios. To address this gap, an evaluation of synthetic data quality is conducted using a combination of domain-specific metrics tailored to the firefighting domain and standard measures such as the Wasserstein distance. Domain-specific metrics include response time distribution, spatial-temporal distribution of interventions, and accidents representation. These metrics are designed to assess data variability, the preservation of fine and complex correlations and anomalies such as event with a very low occurrence, the conformity with the initial statistical distribution and the operational relevance of the synthetic data. The distribution has the particularity of being highly unbalanced, none of the variables following a Gaussian distribution, adding complexity to the data generation process.
- Abstract(参考訳): 人的資源の配分は、消防士の介入の場合、非常に合理的である。
この割り当ては様々なシナリオを実験するためにシミュレーションに依存する。
この割り当ての主な目的は、消防士の反応のグローバルな最適化である。
そこで本研究では,異なるデータ生成手法を比較することを提案する。
ランダムサンプリング,タブラリ変分オートエンコーダ,標準生成逆数ネットワーク,条件付き Tabular Generative Adversarial Networks および拡散確率モデルなどの手法を検討した。
従来の評価指標は、実世界のシナリオに対する合成データセットのニュアンスな要求を捉えるのに不足することが多い。
このギャップに対処するために、消防ドメインに合わせたドメイン固有の指標と、ワッサーシュタイン距離などの標準指標を組み合わせて、合成データ品質の評価を行う。
ドメイン固有のメトリクスには、応答時間分布、介入の時空間分布、事故表現が含まれる。
これらの指標は, データの変動性, 微細で複雑な相関関係の保存, 発生頻度の低い事象, 初期統計分布との整合性, 合成データの操作的関連性などの異常を評価するために設計されている。
分布は高度に不均衡であり、ガウス分布に続く変数は一切なく、データ生成プロセスに複雑さを加える。
関連論文リスト
- Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Fully Embedded Time-Series Generative Adversarial Networks [0.0]
GAN(Generative Adversarial Networks)は、モデル化されているデータの基盤となる分布に適合する合成データを生成する。
実値の時系列データの場合、これはデータの静的な分布を同時にキャプチャする必要があるだけでなく、潜在的な時間的地平線に対するデータの完全な時間的分布も同時に取得する必要があることを意味する。
FETSGANでは、全シーケンスはSeq2seqスタイルの逆自動エンコーダ(AAE)を使用して、ジェネレータのサンプリング空間に直接変換される。
論文 参考訳(メタデータ) (2023-08-30T03:14:02Z) - Statistically Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution [2.1146241717926664]
本稿では, 左非可逆なプッシュフォワード写像に制約されたワッサーシュタインGANが, 複製を回避し, 経験的分布から著しく逸脱する分布を生成することを示す。
我々の最も重要な寄与は、生成分布と経験的分布の間のワッサーシュタイン-1距離の有限サンプル下界を与える。
また、生成分布と真のデータ生成との距離に有限サンプル上限を確立する。
論文 参考訳(メタデータ) (2023-07-31T06:11:57Z) - Characterization and Greedy Learning of Gaussian Structural Causal Models under Unknown Interventions [4.993565079216378]
我々は、GnIESと呼ばれる欲求アルゴリズムを用いて、介入対象の知識のないデータ生成モデルの等価クラスを復元する。
さらに,本論文では,半合成データセットを未知の因果基底真理で生成する手法を開発した。
論文 参考訳(メタデータ) (2022-11-27T17:37:21Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Which Invariance Should We Transfer? A Causal Minimax Learning Approach [18.71316951734806]
本稿では、因果的観点からの包括的ミニマックス分析について述べる。
最小の最悪のリスクを持つサブセットを探索する効率的なアルゴリズムを提案する。
本手法の有効性と有効性は, 合成データとアルツハイマー病の診断で実証された。
論文 参考訳(メタデータ) (2021-07-05T09:07:29Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。