論文の概要: IMAGIC-500: IMputation benchmark on A Generative Imaginary Country (500k samples)
- arxiv url: http://arxiv.org/abs/2506.08844v1
- Date: Tue, 10 Jun 2025 14:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.578822
- Title: IMAGIC-500: IMputation benchmark on A Generative Imaginary Country (500k samples)
- Title(参考訳): IMAGIC-500:A Generative Imaginary Country(500kサンプル)のインプテレーションベンチマーク
- Authors: Siyi Sun, David Antony Selby, Yunchuan Huang, Sebastian Vollmer, Seth Flaxman, Anisoara Calinescu,
- Abstract要約: 本稿では, IMAGIC-500 上で, 各種の欠落メカニズム下での包括的欠落データ計算ベンチマークを提案する。
結果は、統計学、伝統的な機械学習、ディープラーニング計算技術の長所と短所を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data imputation in tabular datasets remains a pivotal challenge in data science and machine learning, particularly within socioeconomic research. However, real-world socioeconomic datasets are typically subject to strict data protection protocols, which often prohibit public sharing, even for synthetic derivatives. This severely limits the reproducibility and accessibility of benchmark studies in such settings. Further, there are very few publicly available synthetic datasets. Thus, there is limited availability of benchmarks for systematic evaluation of imputation methods on socioeconomic datasets, whether real or synthetic. In this study, we utilize the World Bank's publicly available synthetic dataset, Synthetic Data for an Imaginary Country, which closely mimics a real World Bank household survey while being fully public, enabling broad access for methodological research. With this as a starting point, we derived the IMAGIC-500 dataset: we select a subset of 500k individuals across approximately 100k households with 19 socioeconomic features, designed to reflect the hierarchical structure of real-world household surveys. This paper introduces a comprehensive missing data imputation benchmark on IMAGIC-500 under various missing mechanisms (MCAR, MAR, MNAR) and missingness ratios (10\%, 20\%, 30\%, 40\%, 50\%). Our evaluation considers the imputation accuracy for continuous and categorical variables, computational efficiency, and impact on downstream predictive tasks, such as estimating educational attainment at the individual level. The results highlight the strengths and weaknesses of statistical, traditional machine learning, and deep learning imputation techniques, including recent diffusion-based methods. The IMAGIC-500 dataset and benchmark aim to facilitate the development of robust imputation algorithms and foster reproducible social science research.
- Abstract(参考訳): グラフデータセットにおけるデータ計算の欠如は、特に社会経済研究において、データサイエンスと機械学習において重要な課題である。
しかし、現実世界の社会経済データセットは一般的に厳密なデータ保護プロトコルの対象であり、合成誘導体であっても、しばしば公開共有を禁止している。
これはそのような環境でのベンチマーク研究の再現性とアクセシビリティを著しく制限する。
さらに、公開されている合成データセットはごくわずかである。
したがって、実・合成を問わず、社会経済的データセット上での計算方法の体系的評価のためのベンチマークは限られている。
本研究では,世界銀行が公開している人工的データセットであるSynthetic Data for an Imaginary Countryを用いて,世界銀行の実態調査を十分に公開しながら模倣し,方法論研究への幅広いアクセスを可能にした。
実世界の世帯調査の階層構造を反映した社会経済的特徴を持つ約100万世帯にまたがる500万世帯のサブセットを選定し,このデータを出発点としてIMAGIC-500データセットを作成した。
本稿では, MCAR, MAR, MNAR) と欠落率 (10\%, 20\%, 30\%, 40\%, 50\%) に基づいて, IMAGIC-500 上の包括的欠落データ計算ベンチマークを提案する。
本評価では,連続変数とカテゴリー変数の計算精度,計算効率,個人レベルでの教育達成度推定などの下流予測タスクへの影響を考察する。
この結果は、統計学、伝統的な機械学習、そして最近の拡散に基づく手法を含むディープラーニング計算技術の長所と短所を強調している。
IMAGIC-500データセットとベンチマークは、堅牢な計算アルゴリズムの開発と再現可能な社会科学研究の促進を目的としている。
関連論文リスト
- Guided Persona-based AI Surveys: Can we replicate personal mobility preferences at scale using LLMs? [1.7819574476785418]
本研究では,Large Language Models (LLMs) が人工的なサーベイを生成する可能性について検討する。
合成データ作成にLLMを活用することにより,従来の調査手法の限界に対処することを目指す。
Personas」を取り入れた新しい手法が提案され、他の5つの総合的なサーベイ手法と比較された。
論文 参考訳(メタデータ) (2025-01-20T15:11:03Z) - SDFR: Synthetic Data for Face Recognition Competition [51.9134406629509]
大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。
近年、ウェブクローリングされた顔認識データセットにおける懸念を軽減するために、合成顔認識データセットの生成が提案されている。
本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されているSynthetic Data for Face Recognition (SDFR)コンペティションの概要を紹介する。
SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットまたは/または既存のデータセットを使用して顔認識システムを訓練することができる。
論文 参考訳(メタデータ) (2024-04-06T10:30:31Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Synthetic Data in Human Analysis: A Survey [16.562921709882865]
調査は、人間分析の分野の研究者や実践者を対象としている。
我々は,現在最先端の手法と合成データの利用の主な利点を要約した調査を行う。
また、利用可能な合成データセットと生成モデルの概要も提供する。
論文 参考訳(メタデータ) (2022-08-19T07:32:34Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。