論文の概要: The Global Representativeness Index: A Total Variation Distance Framework for Measuring Demographic Fidelity in Survey Research
- arxiv url: http://arxiv.org/abs/2602.14835v1
- Date: Mon, 16 Feb 2026 15:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.483634
- Title: The Global Representativeness Index: A Total Variation Distance Framework for Measuring Demographic Fidelity in Survey Research
- Title(参考訳): グローバル・ディペンデンス・インデックス : 調査研究におけるデモグラフィーの忠実度測定のための総合的変動距離フレームワーク
- Authors: Evan Hadfield,
- Abstract要約: 調査研究は、AIガバナンスと異文化間政策における高い意思決定をますます通知する。
標準化されたメートル法は、サンプルの人口構成が対象の個体数とどの程度よく一致しているかを定量化するものではない。
本稿では,全変動距離に基づくGRI(Global Representativeness Index)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global survey research increasingly informs high-stakes decisions in AI governance and cross-cultural policy, yet no standardized metric quantifies how well a sample's demographic composition matches its target population. Response rates and demographic quotas -- the prevailing proxies for sample quality -- measure effort and coverage but not distributional fidelity. This paper introduces the Global Representativeness Index (GRI), a framework grounded in Total Variation Distance that scores any survey sample against population benchmarks across multiple demographic dimensions on a [0, 1] scale. Validation on seven waves of the Global Dialogues survey (N = 7,500 across 60+ countries) finds fine-grained demographic GRI scores of only 0.33--0.36 -- roughly 43% of the theoretical maximum at that sample size. Cross-validation on the World Values Survey (seven waves, N = 403,000), Afrobarometer Round 9 (N = 53,000), and Latinobarometro (N = 19,000) reveals that even large probability surveys score below 0.22 on fine-grained global demographics when country coverage is limited. The GRI connects to classical survey statistics through the design effect; both metrics are recommended as a minimum summary of sample quality, since GRI quantifies demographic distance symmetrically while effective N captures the asymmetric inferential cost of underrepresentation. The framework is released as an open-source Python library with UN and Pew Research Center population benchmarks, applicable to survey research, machine learning dataset auditing, and AI evaluation benchmarks.
- Abstract(参考訳): グローバル調査研究は、AIガバナンスと異文化間政策において、高い評価の意思決定を通知する傾向にあるが、サンプルの人口構成がターゲットの人口とどの程度うまく一致しているかを標準化された指標は示されていない。
反応率と人口統計量 -- サンプル品質の一般的なプロキシ -- は、努力とカバレッジを測るが、分布の忠実さは測らない。
本稿では,[0, 1]スケールで複数の人口動態指標に対する調査サンプルをスコアリングする,全変動距離に基づくGRI(Global Representativeness Index)について紹介する。
グローバル・ダイアログ・サーベイの7つの波(60以上の国でN=7500)の検証では、GRIの粒度は0.33-0.36で、そのサンプルサイズの理論的な最大値の約43%である。
世界価値調査(7つの波、N = 403,000)、アフロバロメータラウンド9(N = 53,000)、ラテンバロメトロ(N = 19,000)のクロスバリデーションは、国別人口が限られている世界の人口層において、大きな確率調査でさえ0.22未満であることを示している。
GRIは、Nが非対称な非対称な表現コストをキャプチャする一方で、GRIは層間距離を対称的に定量化するので、両方の指標はサンプル品質の最小の要約として推奨される。
このフレームワークは、UNとPew Research Centerの集団ベンチマークを備えたオープンソースのPythonライブラリとしてリリースされ、調査、機械学習データセットの監査、AI評価ベンチマークに適用される。
関連論文リスト
- SocioBench: Modeling Human Behavior in Sociological Surveys with Large Language Models [32.66051406264919]
大規模言語モデル(LLM)は、人間の社会的行動や相互作用をシミュレートする強力な可能性を示すが、実際の社会的態度との整合性を評価するための大規模で体系的なベンチマークは欠如している。
国際社会調査プログラム(ISSP)の年次収集標準化調査データから得られた総合的なベンチマークであるSocioBenchを紹介する。
このベンチマークは、30カ国以上から480,000件以上の実応答記録を収集し、10の社会学的ドメインと40以上の人口統計特性にまたがっている。
論文 参考訳(メタデータ) (2025-10-13T08:22:20Z) - EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models [1.141545154221656]
EvalMORAALは20の大規模言語モデルにおいてモラルアライメントを評価する透過的なチェーン・オブ・シントフレームワークである。
世界価値調査(55か国、19か国)とPEWグローバル姿勢調査(39か国、8か国)のモデルを評価する。
論文 参考訳(メタデータ) (2025-10-07T13:52:16Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - ChatGPT vs Social Surveys: Probing Objective and Subjective Silicon Population [7.281887764378982]
大規模言語モデル(LLM)は、社会調査における人間の反応をシミュレートし、信頼できる予測を生成する可能性を秘めている。
GPTにより生成したシリコン試料の集団パラメータを同定するサンプリング分布を生成するために,繰り返しサンプリングを用いる。
以上の結果から、GPTの人口分布は、性別と平均年齢の点で、2020年の米国人口と一致していることがわかった。
GPTの立位スコアの点推定は極めて矛盾しており、特定のイデオロギーに対する明確な傾きを示していない。
論文 参考訳(メタデータ) (2024-09-04T10:33:37Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。