論文の概要: Can We Trust Race Prediction?
- arxiv url: http://arxiv.org/abs/2307.08496v2
- Date: Mon, 7 Aug 2023 20:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:25:06.134249
- Title: Can We Trust Race Prediction?
- Title(参考訳): レース予測は信頼できるか?
- Authors: Cangyuan Li
- Abstract要約: 私は、50州すべての有権者登録データの新しいデータセットに基づいて、Bidirectional Long Short-Term Memory (BiLSTM)モデルをトレーニングします。
アメリカにおける姓と姓の分布の包括的データベースを構築します。
私は、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the absence of sensitive race and ethnicity data, researchers, regulators,
and firms alike turn to proxies. In this paper, I train a Bidirectional Long
Short-Term Memory (BiLSTM) model on a novel dataset of voter registration data
from all 50 US states and create an ensemble that achieves up to 36.8% higher
out of sample (OOS) F1 scores than the best performing machine learning models
in the literature. Additionally, I construct the most comprehensive database of
first and surname distributions in the US in order to improve the coverage and
accuracy of Bayesian Improved Surname Geocoding (BISG) and Bayesian Improved
Firstname Surname Geocoding (BIFSG). Finally, I provide the first high-quality
benchmark dataset in order to fairly compare existing models and aid future
model developers.
- Abstract(参考訳): センシティブな人種と民族データがないと、研究者、規制当局、そして企業もプロキシーに目を向ける。
本稿では,50州すべてからの投票者登録データの新しいデータセットに基づいて,双方向長短期記憶(BiLSTM)モデルをトレーニングし,最大36.8%のサンプル(OOS)F1スコアを文献上で最高の機械学習モデルよりも高いスコアで達成するアンサンブルを作成する。
さらに,ベイジアン改良名称ジオコーディング (BISG) とベイジアン改良姓ジオコーディング (BIFSG) のカバレッジと精度を向上させるため,アメリカにおける姓と姓の分布の包括的データベースを構築した。
最後に、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供します。
関連論文リスト
- CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models [1.7849982327883962]
本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Geolocation Predicting of Tweets Using BERT-Based Models [27.806085423595334]
本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
論文 参考訳(メタデータ) (2023-03-14T12:56:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Benchmarking Bayesian Improved Surname Geocoding Against Machine
Learning Methods [0.0]
BISGは、投票者登録ファイルの人種/民族をプロキシする最も一般的な方法である。
本稿は、BISGを、未試験の機械学習代替品に対してベンチマークする。
その結果,個別分類では,事前学習された機械学習モデルの方がBISGより望ましいことが示唆された。
論文 参考訳(メタデータ) (2022-06-26T11:12:37Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - USACv20: robust essential, fundamental and homography matrix estimation [68.65610177368617]
最新のRANSACのような仮説と検証の堅牢な推定器をレビューします。
最高のパフォーマンスは、Universal Sample Consensus (USAC)アルゴリズムの最先端バージョンを作成するために組み合わせられる。
提案手法であるUSACv20は、公開された8つの実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2021-04-11T16:27:02Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - TTDM: A Travel Time Difference Model for Next Location Prediction [14.93730951083916]
次の位置予測は、多くの位置情報ベースのアプリケーションにとって非常に重要であり、ビジネスや政府に不可欠なインテリジェンスを提供する。
既存の研究では、次の位置予測に対する一般的なアプローチは、条件付き確率に基づいて、巨大な歴史的軌跡を持つ連続的な遷移を学習することである。
本稿では,最短走行時間と実走行時間との差を利用して次の位置を推定する旅行時間差モデル(TTDM)を提案する。
論文 参考訳(メタデータ) (2020-03-16T05:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。