Fugu-MT 論文翻訳(概要): Preserving correlations: A statistical method for generating synthetic data

論文の概要: Preserving correlations: A statistical method for generating synthetic data

arxiv url: http://arxiv.org/abs/2403.01471v2
Date: Mon, 11 Nov 2024 12:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.179468
Title: Preserving correlations: A statistical method for generating synthetic data
Title（参考訳）: 相関を保存する: 統計的に合成データを生成する方法
Authors: Nicklas Jävergård, Rainey Lyons, Adrian Muntean, Jonas Forsman,
Abstract要約: 与えられたデータセットから統計的に代表的な合成データを生成する手法を提案する。本手法の主な目的は,生成したデータに対して,元のデータに存在する特徴相関を模倣することである。統計的マップの構築と、このマップを用いて合成観測を生成する方法の両方において、我々のアルゴリズムを詳細に記述する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a method to generate statistically representative synthetic data from a given dataset. The main goal of our method is for the created data set to mimic the between feature correlations present in the original data, while also offering a tunable parameter to influence the privacy level. In particular, our method constructs a statistical map by using the empirical conditional distributions between the features of the original dataset. We describe in detail our algorithms used both in the construction of a statistical map and how to use this map to generate synthetic observations. This approach is tested in three different ways: with a hand calculated example; a manufactured dataset; and a real world energy-related dataset of consumption/production of households in Madeira Island. We test our method's performance by comparing the datasets using the on Pearson correlation matrix. The proposed methodology is general in the sense that it does not rely on the used test dataset. We expect it to be applicable in a much broader context than indicated here.
Abstract（参考訳）: 与えられたデータセットから統計的に代表的な合成データを生成する手法を提案する。本手法の主な目的は,プライバシレベルに影響を与えるための調整可能なパラメータを提供するとともに,元のデータに存在する特徴相関を模倣する生成データセットである。特に,本手法は,元のデータセットの特徴間の経験的条件分布を用いて,統計的マップを構築する。統計的マップの構築と、このマップを用いて合成観測を生成する方法の両方において、我々のアルゴリズムを詳細に記述する。このアプローチは、手計算の例、製造されたデータセット、マデイラ島における世帯の消費・生産に関する実世界のエネルギー関連データセットの3つの異なる方法でテストされている。 Pearson相関行列を用いてデータセットを比較し,本手法の性能を検証した。提案手法は, 使用済みテストデータセットに依存しないという意味で一般的である。ここで示されるよりもはるかに広い文脈で適用できると期待しています。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文参考訳（メタデータ） (2025-03-07T21:47:11Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Causal Discovery on Dependent Binary Data [6.464898093190062]
本稿では,関係するバイナリデータに基づく因果グラフ学習のためのデコレーションに基づくアプローチを提案する。我々は,潜在ユーティリティ変数のサンプルの生成とデコレーションを行うEMライクな反復アルゴリズムを開発した。提案手法は因果グラフ学習の精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-12-28T21:55:42Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文参考訳（メタデータ） (2024-09-03T17:12:21Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-07-01T04:24:07Z)
Estimation of conditional average treatment effects on distributed confidential data [6.798254568821052]
条件平均処理効果(CATE)は、複数のパーティに分散したデータが集中できる場合、高精度に推定できる。機密やプライバシー上の懸念から、このようなデータを集約することは困難である。我々は、分散データから構築されたプライバシー保護融合データからCATEモデルを推定する手法である二重機械学習(Double Machine Learning)を提案する。
論文参考訳（メタデータ） (2024-02-05T02:17:21Z)
Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文参考訳（メタデータ） (2023-07-28T23:02:39Z)
Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文参考訳（メタデータ） (2022-11-23T11:09:52Z)
Statistical inference of travelers' route choice preferences with system-level data [4.120057972557892]
本研究では,システムレベルのデータを用いて旅行者の実用機能を複数の属性で推定する手法を開発した。合成データを用いた実験では、係数は一貫して回復され、仮説テストはどの属性が旅行者の経路選択の決定要因であるかを特定する信頼できる統計量であることが示されている。この方法論は、新型コロナウイルスの感染拡大時に収集された実際のFresnoworldマルチソースデータを使用して、大規模に展開される。
論文参考訳（メタデータ） (2022-04-23T00:38:32Z)
Combining Observational and Randomized Data for Estimating Heterogeneous Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。現在、現存するほとんどの作品は観測データにのみ依存している。本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文参考訳（メタデータ） (2022-02-25T18:59:54Z)
The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文参考訳（メタデータ） (2020-08-28T08:34:28Z)
Tell Me Something I Don't Know: Randomization Strategies for Iterative Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文参考訳（メタデータ） (2020-06-16T19:20:50Z)
Statistical inference in massive datasets by empirical likelihood [1.6887485428725042]
本稿では,大規模データセットに対する新しい統計的推論手法を提案する。本手法は分割・対数法と経験的可能性を組み合わせることで, 極めて単純かつ効率的である。
論文参考訳（メタデータ） (2020-04-18T10:18:07Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)
Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文参考訳（メタデータ） (2019-12-30T09:50:58Z)
Meta-analysis of heterogeneous data: integrative sparse regression in high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文参考訳（メタデータ） (2019-12-26T20:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。