論文の概要: Synthetic Data Generation for Economists
- arxiv url: http://arxiv.org/abs/2011.01374v2
- Date: Fri, 6 Nov 2020 21:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:27:26.671890
- Title: Synthetic Data Generation for Economists
- Title(参考訳): エコノミストのための合成データ生成
- Authors: Allison Koenecke and Hal Varian
- Abstract要約: 機密性の高い、プロプライエタリな、あるいはプライベートなデータを使用するため、社内の書類は複製できない。
この問題を改善する方法の1つは、研究者が真のデータに基づいて合成データセットをリリースさせることである。
本稿では, 経済分析における合成データ生成の高度化について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As more tech companies engage in rigorous economic analyses, we are
confronted with a data problem: in-house papers cannot be replicated due to use
of sensitive, proprietary, or private data. Readers are left to assume that the
obscured true data (e.g., internal Google information) indeed produced the
results given, or they must seek out comparable public-facing data (e.g.,
Google Trends) that yield similar results. One way to ameliorate this
reproducibility issue is to have researchers release synthetic datasets based
on their true data; this allows external parties to replicate an internal
researcher's methodology. In this brief overview, we explore synthetic data
generation at a high level for economic analyses.
- Abstract(参考訳): 多くのテクノロジー企業が厳格な経済分析に従事しているため、私たちはデータ問題に直面している。
読者は、曖昧な真のデータ(例えば、内部google情報)が与えられた結果を生み出しているか、同様の結果をもたらす、比較可能な公開データ(例えば、google trends)を探さなければならないと仮定する。
この再現性の問題を改善する方法の1つは、研究者が真のデータに基づいて合成データセットをリリースさせることである。
本稿では,経済分析のための高水準の合成データ生成について概説する。
関連論文リスト
- Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。