論文の概要: Prediction-powered estimators for finite population statistics in highly imbalanced textual data: Public hate crime estimation
- arxiv url: http://arxiv.org/abs/2505.04643v1
- Date: Mon, 05 May 2025 16:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.600129
- Title: Prediction-powered estimators for finite population statistics in highly imbalanced textual data: Public hate crime estimation
- Title(参考訳): 高不均衡テキストデータにおける有限人口統計量の予測による推定:公共ヘイト犯罪推定
- Authors: Hannes Waldetoft, Jakob Torgander, Måns Magnusson,
- Abstract要約: 変圧器エンコーダニューラルネットワークからの予測と,モデル予測を補助変数として用いたよく確立されたサーベイサンプリング推定器を組み合わせる。
この適用性はスウェーデン警察の報告に基づくスウェーデンのヘイト犯罪統計で実証されている。
提案手法は,ラベル付きトレーニングデータが利用可能であれば,手作業のアノテーションに費やした時間を削減して,極めて効率的な推定を行うことができると結論付けた。
- 参考スコア(独自算出の注目度): 1.2713814898630647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating population parameters in finite populations of text documents can be challenging when obtaining the labels for the target variable requires manual annotation. To address this problem, we combine predictions from a transformer encoder neural network with well-established survey sampling estimators using the model predictions as an auxiliary variable. The applicability is demonstrated in Swedish hate crime statistics based on Swedish police reports. Estimates of the yearly number of hate crimes and the police's under-reporting are derived using the Hansen-Hurwitz estimator, difference estimation, and stratified random sampling estimation. We conclude that if labeled training data is available, the proposed method can provide very efficient estimates with reduced time spent on manual annotation.
- Abstract(参考訳): テキスト文書の有限集団における集団パラメータの推定は,対象変数のラベルを取得する際に手動のアノテーションを必要とする場合,困難である。
この問題に対処するために,トランスフォーマーエンコーダニューラルネットワークからの予測と,モデル予測を補助変数として用いたよく確立されたサーベイサンプリング推定器を組み合わせる。
この適用性はスウェーデン警察の報告に基づくスウェーデンのヘイト犯罪統計で実証されている。
ハンセン・ハーウィッツ推定器(Hansen-Hurwitz estimator)、差分推定器(差分推定)、層別乱数推定器( Stratified random sample estimation)を用いて、毎年のヘイトクライム数と警察の過小報告量の推定を導出した。
提案手法は,ラベル付きトレーニングデータが利用可能であれば,手作業のアノテーションに費やした時間を削減して,極めて効率的な推定を行うことができると結論付けた。
関連論文リスト
- Likelihood-Free Estimation for Spatiotemporal Hawkes processes with missing data and application to predictive policing [24.33098548975857]
時空間ホークスモデルにおける未報告犯罪を考慮に入れたWGAN(Wasserstein Generative Adrial Networks)による可能性のないアプローチを提案する。
本研究では、この手法がデータ不足の有無でパラメトリック推定の精度をいかに向上するかを実証分析により示す。
論文 参考訳(メタデータ) (2025-02-10T23:09:12Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Prediction Errors for Penalized Regressions based on Generalized
Approximate Message Passing [0.0]
C_p$ criterion, Information criteria, and leave-one-out Cross Validation (LOOCV) error。
GAMPの枠組みでは,推定値の分散を利用して情報基準を表現できることが示されている。
論文 参考訳(メタデータ) (2022-06-26T09:42:39Z) - Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions [12.818275315985971]
本研究では, フレキシブルで解釈可能な非パラメトリックモデル群を用いて, アンケート応答率を予測することの問題点を考察する。
この研究は、米国国勢調査局(US Census Bureau)の有名なROAMアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2021-08-24T17:49:55Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - Estimating Gradients for Discrete Random Variables by Sampling without
Replacement [93.09326095997336]
我々は、置換のないサンプリングに基づいて、離散確率変数に対する期待値の偏りのない推定器を導出する。
推定器は3つの異なる推定器のラオ・ブラックウェル化として導出可能であることを示す。
論文 参考訳(メタデータ) (2020-02-14T14:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。