論文の概要: Benchmarking Bayesian Improved Surname Geocoding Against Machine
Learning Methods
- arxiv url: http://arxiv.org/abs/2206.14583v1
- Date: Sun, 26 Jun 2022 11:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 02:02:27.210493
- Title: Benchmarking Bayesian Improved Surname Geocoding Against Machine
Learning Methods
- Title(参考訳): ベンチマークベイズアンによる機械学習手法に対する苗字ジオコーディングの改善
- Authors: Ari Decter-Frain
- Abstract要約: BISGは、投票者登録ファイルの人種/民族をプロキシする最も一般的な方法である。
本稿は、BISGを、未試験の機械学習代替品に対してベンチマークする。
その結果,個別分類では,事前学習された機械学習モデルの方がBISGより望ましいことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian Improved Surname Geocoding (BISG) is the most popular method for
proxying race/ethnicity in voter registration files that do not contain it.
This paper benchmarks BISG against a range of previously untested machine
learning alternatives, using voter files with self-reported race/ethnicity from
California, Florida, North Carolina, and Georgia. This analysis yields three
key findings. First, when given the exact same inputs, BISG and machine
learning perform similarly for estimating aggregate racial/ethnic composition.
Second, machine learning outperforms BISG at individual classification of
race/ethnicity. Third, the performance of all methods varies substantially
across states. These results suggest that pre-trained machine learning models
are preferable to BISG for individual classification. Furthermore, mixed
results at the precinct level and across states underscore the need for
researchers to empirically validate their chosen race/ethnicity proxy in their
populations of interest.
- Abstract(参考訳): Bayesian Improved Surname Geocoding (BISG)は、投票者登録ファイルの人種/民族をプロキシする最も一般的な方法である。
本稿では、カリフォルニア、フロリダ、ノースカロライナ、ジョージアからの自己報告された人種/民族の投票者ファイルを用いて、BISGを、これまでテストされていなかった機械学習代替案に対してベンチマークする。
この分析は3つの重要な発見をもたらす。
まず、全く同じ入力を与えられた場合、BISGと機械学習も同様に、総合的な人種/民族構成を推定する。
第二に、機械学習は人種・民族の個別分類においてBISGを上回っている。
第三に、全ての方法のパフォーマンスは州によって大きく異なる。
これらの結果は,事前学習した機械学習モデルが個々の分類においてbisgよりも好ましいことを示唆する。
さらに、地区レベルと州全体での混合の結果は、研究者が興味のある集団において、選択された人種/民族のプロキシを実証的に検証する必要性を強調している。
関連論文リスト
- A robust three-way classifier with shadowed granular-balls based on justifiable granularity [53.39844791923145]
我々は、不確実なデータのために、影付きGBの頑健な3方向分類器を構築した。
本モデルでは,不確実なデータ管理を実証し,分類リスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-03T08:54:45Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Can We Trust Race Prediction? [0.0]
私は、50州すべての有権者登録データの新しいデータセットに基づいて、Bidirectional Long Short-Term Memory (BiLSTM)モデルをトレーニングします。
アメリカにおける姓と姓の分布の包括的データベースを構築します。
私は、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供しています。
論文 参考訳(メタデータ) (2023-07-17T13:59:07Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Change is Hard: A Closer Look at Subpopulation Shift [48.0369745740936]
本稿では,部分群における共通シフトを識別し,説明する統一的なフレームワークを提案する。
次に、ビジョン、言語、医療領域の12の現実世界のデータセットで評価された20の最先端アルゴリズムのベンチマークを作成します。
論文 参考訳(メタデータ) (2023-02-23T18:59:56Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - K-Nearest Neighbour and Support Vector Machine Hybrid Classification [0.0]
この手法は, 近接条件を満たす試験試料にK-Nearest Neighbour Classificationを用いた。
分離されたテストサンプル毎に、Support Vector Machineは、それに関連するトレーニングセットパターンに基づいてトレーニングされ、テストサンプルの分類が行われます。
論文 参考訳(メタデータ) (2020-06-28T15:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。