論文の概要: BiasBuster: a Neural Approach for Accurate Estimation of Population
Statistics using Biased Location Data
- arxiv url: http://arxiv.org/abs/2402.11318v1
- Date: Sat, 17 Feb 2024 16:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:00:11.527982
- Title: BiasBuster: a Neural Approach for Accurate Estimation of Population
Statistics using Biased Location Data
- Title(参考訳): BiasBuster:Biased Location Dataを用いた人口統計の正確な推定のためのニューラルネットワーク
- Authors: Sepanta Zeighami, Cyrus Shahabi
- Abstract要約: 統計的偏りは有用である場合もあるが,精度が向上しない場合が多い。
次に、人口統計と位置特性の相関を利用して、人口統計の正確な推定を行うニューラルネットワーク手法であるBiasBusterを提案する。
- 参考スコア(独自算出の注目度): 6.077198822448429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While extremely useful (e.g., for COVID-19 forecasting and policy-making,
urban mobility analysis and marketing, and obtaining business insights),
location data collected from mobile devices often contain data from a biased
population subset, with some communities over or underrepresented in the
collected datasets. As a result, aggregate statistics calculated from such
datasets (as is done by various companies including Safegraph, Google, and
Facebook), while ignoring the bias, leads to an inaccurate representation of
population statistics. Such statistics will not only be generally inaccurate,
but the error will disproportionately impact different population subgroups
(e.g., because they ignore the underrepresented communities). This has dire
consequences, as these datasets are used for sensitive decision-making such as
COVID-19 policymaking. This paper tackles the problem of providing accurate
population statistics using such biased datasets. We show that statistical
debiasing, although in some cases useful, often fails to improve accuracy. We
then propose BiasBuster, a neural network approach that utilizes the
correlations between population statistics and location characteristics to
provide accurate estimates of population statistics. Extensive experiments on
real-world data show that BiasBuster improves accuracy by up to 2 times in
general and up to 3 times for underrepresented populations.
- Abstract(参考訳): 極めて有用(新型コロナウイルスの予測や政策立案、都市移動分析やマーケティング、ビジネス洞察の獲得など)だが、モバイルデバイスから収集された位置情報には、偏った人口のサブセットのデータが含まれ、一部のコミュニティは収集されたデータセットに過小評価されている。
その結果、これらのデータセットから算出された集計統計(Safegraph、Google、Facebookなど様々な企業が行っているように)はバイアスを無視しながら、人口統計の不正確な表現につながる。
そのような統計は一般に不正確であるだけでなく、誤りは異なる集団に不釣り合いに影響を及ぼす(例えば、不正確な地域社会を無視している)。
これらのデータセットは、新型コロナウイルスの政策決定のような繊細な意思決定に使用されるため、これは恐ろしい結果をもたらす。
本稿では,このような偏りのあるデータセットを用いて,正確な人口統計を提供する問題に取り組む。
統計的偏りは有用である場合もあるが,精度が向上しない場合が多い。
次に、人口統計と位置特性の相関を利用して、人口統計の正確な推定を行うニューラルネットワーク手法であるBiasBusterを提案する。
実世界のデータに対する大規模な実験により、BiasBusterは一般に最大で2倍、人口不足では最大で3倍精度が向上することが示された。
関連論文リスト
- Dataset Representativeness and Downstream Task Fairness [24.570493924073524]
そのデータセット上で訓練された分類器のデータセット代表性とグループフェアネスとの間に自然な緊張関係があることを実証する。
また、過度にサンプル化されていない群は、それらの群に偏りを示す分類器を生じる可能性があることも見出した。
論文 参考訳(メタデータ) (2024-06-28T18:11:16Z) - Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead [0.48163317476588574]
英語のGLUE/SuperGLUEリーダーボードのベンチマークデータセットを含む,評価された5つの言語の10のデータセットすべてにバイアスが存在することを示す。
3つの新しい言語は、合計600万のラベル付きサンプルを与え、SotAの多言語事前トレーニングモデルであるmT5とmBERTを使ってこれらのデータセットをベンチマークします。
論文 参考訳(メタデータ) (2024-04-07T07:24:45Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - DSAP: Analyzing Bias Through Demographic Comparison of Datasets [4.8741052091630985]
DSAP(Demographic similarity from Auxiliary Profiles)は、2つのデータセットの人口構成を比較するための2段階の手法である。
DSAPは3つの主要なアプリケーションにデプロイすることができる。データセット間での人口統計学的盲点とバイアスの問題の検出と特徴付け、単一のデータセットにおけるデータセットの人口統計学的バイアスの測定、デプロイメントシナリオにおけるデータセットの人口統計学的シフトの測定である。
DSAPの重要な特徴は、明示的な人口統計ラベルなしでデータセットを堅牢に分析し、広範囲の状況に対してシンプルで解釈可能な機能を提供することである。
論文 参考訳(メタデータ) (2023-12-22T11:51:20Z) - Unbiased Supervised Contrastive Learning [10.728852691100338]
本研究では,バイアスに頑健な表現を学習する問題に取り組む。
まず、偏りのあるデータを扱う際に、最近の対照的な損失がなぜ失敗するのかを明らかにするための、マージンに基づく理論的枠組みを提案する。
教師付きコントラスト損失(epsilon-SupInfoNCE)を新たに定式化し,正試料と負試料の最小距離をより正確に制御する。
理論的な枠組みのおかげで、極めて偏りのあるデータでもうまく機能する新しい偏りのある正規化損失であるFairKLも提案する。
論文 参考訳(メタデータ) (2022-11-10T13:44:57Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - AutoDebias: Learning to Debias for Recommendation [43.84313723394282]
今回提案するtextitAotoDebiasは、他の(小さな)均一なデータセットを利用してデバイアスパラメータを最適化する。
我々は、AutoDebiasの一般化を導き、適切なデバイアス戦略を得る能力を証明する。
論文 参考訳(メタデータ) (2021-05-10T08:03:48Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。