論文の概要: Can We Trust Race Prediction?
- arxiv url: http://arxiv.org/abs/2307.08496v2
- Date: Mon, 7 Aug 2023 20:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:25:06.134249
- Title: Can We Trust Race Prediction?
- Title(参考訳): レース予測は信頼できるか?
- Authors: Cangyuan Li
- Abstract要約: 私は、50州すべての有権者登録データの新しいデータセットに基づいて、Bidirectional Long Short-Term Memory (BiLSTM)モデルをトレーニングします。
アメリカにおける姓と姓の分布の包括的データベースを構築します。
私は、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the absence of sensitive race and ethnicity data, researchers, regulators,
and firms alike turn to proxies. In this paper, I train a Bidirectional Long
Short-Term Memory (BiLSTM) model on a novel dataset of voter registration data
from all 50 US states and create an ensemble that achieves up to 36.8% higher
out of sample (OOS) F1 scores than the best performing machine learning models
in the literature. Additionally, I construct the most comprehensive database of
first and surname distributions in the US in order to improve the coverage and
accuracy of Bayesian Improved Surname Geocoding (BISG) and Bayesian Improved
Firstname Surname Geocoding (BIFSG). Finally, I provide the first high-quality
benchmark dataset in order to fairly compare existing models and aid future
model developers.
- Abstract(参考訳): センシティブな人種と民族データがないと、研究者、規制当局、そして企業もプロキシーに目を向ける。
本稿では,50州すべてからの投票者登録データの新しいデータセットに基づいて,双方向長短期記憶(BiLSTM)モデルをトレーニングし,最大36.8%のサンプル(OOS)F1スコアを文献上で最高の機械学習モデルよりも高いスコアで達成するアンサンブルを作成する。
さらに,ベイジアン改良名称ジオコーディング (BISG) とベイジアン改良姓ジオコーディング (BIFSG) のカバレッジと精度を向上させるため,アメリカにおける姓と姓の分布の包括的データベースを構築した。
最後に、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供します。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Prompt Public Large Language Models to Synthesize Data for Private On-device Applications [5.713077600587505]
本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。
合成データセットに事前学習したモデルでは, 単語予測精度が19.0%, 22.8%向上した。
実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証した。
論文 参考訳(メタデータ) (2024-04-05T19:14:14Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Predicting the Geolocation of Tweets Using transformer models on Customized Data [17.55660062746406]
本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
論文 参考訳(メタデータ) (2023-03-14T12:56:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Benchmarking Bayesian Improved Surname Geocoding Against Machine
Learning Methods [0.0]
BISGは、投票者登録ファイルの人種/民族をプロキシする最も一般的な方法である。
本稿は、BISGを、未試験の機械学習代替品に対してベンチマークする。
その結果,個別分類では,事前学習された機械学習モデルの方がBISGより望ましいことが示唆された。
論文 参考訳(メタデータ) (2022-06-26T11:12:37Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - USACv20: robust essential, fundamental and homography matrix estimation [68.65610177368617]
最新のRANSACのような仮説と検証の堅牢な推定器をレビューします。
最高のパフォーマンスは、Universal Sample Consensus (USAC)アルゴリズムの最先端バージョンを作成するために組み合わせられる。
提案手法であるUSACv20は、公開された8つの実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2021-04-11T16:27:02Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。