論文の概要: LSTM+Geo with xgBoost Filtering: A Novel Approach for Race and Ethnicity Imputation with Reduced Bias
- arxiv url: http://arxiv.org/abs/2504.21259v1
- Date: Wed, 30 Apr 2025 02:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:52:50.332756
- Title: LSTM+Geo with xgBoost Filtering: A Novel Approach for Race and Ethnicity Imputation with Reduced Bias
- Title(参考訳): LSTM+Geo with xgBoost Filtering:A New Approach for Race and Ethnicity Imputation with Reduced Bias (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: S. Chalavadi, A. Pastor, T. Leitch,
- Abstract要約: 本稿では,位置情報を用いたLong Short-Term Memory Networkの拡張手法であるLSTM+Geoを紹介する。
大規模な投票者データセットを用いて、LSTM+Geo(88.7%の精度)がスタンドアローンLSTMおよびベイズ法より著しく優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate imputation of race and ethnicity (R&E) is crucial for analyzing disparities and informing policy. Methods like Bayesian Improved Surname Geocoding (BISG) are widely used but exhibit limitations, including systematic misclassification biases linked to socioeconomic status. This paper introduces LSTM+Geo, a novel approach enhancing Long Short-Term Memory (LSTM) networks with census tract geolocation information. Using a large voter dataset, we demonstrate that LSTM+Geo (88.7% accuracy) significantly outperforms standalone LSTM (86.4%) and Bayesian methods like BISG (82.9%) and BIFSG (86.8%) in accuracy and F1-score on a held-out validation set. LSTM+Geo reduces the rate at which non-White individuals are misclassified as White (White FPR 19.3%) compared to name-only LSTMs (White FPR 24.6%). While sophisticated ensemble methods incorporating XGBoost achieve the highest overall accuracy (up to 89.4%) and lowest White FPR (17.8%), LSTM+Geo offers strong standalone performance with improved bias characteristics compared to baseline models. Integrating LSTM+Geo into an XGBoost ensemble further boosts accuracy, highlighting its utility as both a standalone model and a component for advanced systems. We give a caution at the end regarding the appropriate use of these methods.
- Abstract(参考訳): 人種と民族の正確な計算(R&E)は、格差を分析し、政策を伝えるために重要である。
Bayesian Improved Surname Geocoding (BISG) のような手法は広く使われているが、社会経済的地位に関連する体系的な誤分類バイアスを含む制限がある。
本稿では,Long Short-Term Memory (LSTM) ネットワークにセンサストラクション位置情報を付加した新しいアプローチであるLSTM+Geoを紹介する。
大規模な投票者データセットを用いて、LSTM+Geo(88.7%の精度)がスタンドアローンLSTM(86.4%)とBISG(82.9%)やBIFSG(86.8%)といったベイズ的手法の精度とホールドアウト検証セットでのF1スコアを大きく上回ることを示した。
LSTM+Geoは、名前のみのLSTM(White FPR 24.6%)と比較して、非白人がホワイト(White FPR 19.3%)と誤分類される率を減らす。
XGBoostを組み込んだ洗練されたアンサンブル法は全体の最高精度(最大89.4%)と最低のWhite FPR(17.8%)を達成しているが、LSTM+Geoはベースラインモデルと比較してバイアス特性が改善された強力なスタンドアロン性能を提供する。
LSTM+GeoをXGBoostアンサンブルに統合すると、さらなる精度が向上し、スタンドアロンモデルと高度なシステムのコンポーネントとしての有用性が強調される。
最後に、これらの手法の適切な使用について注意する。
関連論文リスト
- Mind the Gap: Confidence Discrepancy Can Guide Federated Semi-Supervised Learning Across Pseudo-Mismatch [50.632535091877706]
Federated Semi-Supervised Learning (FSSL)は、ラベル付きデータに制限のあるクライアント間でラベル付きデータを活用して、強力な一般化能力を持つグローバルモデルをトレーニングすることを目的としている。
ほとんどのFSSL手法は擬似ラベルによる整合正則化に依存しており、局所的またはグローバルなモデルからの予測を監督信号としてハード擬似ラベルに変換する。
擬似ラベルの品質は、フェデレーション学習の本質的な側面であるデータ不均一性によって大きく劣化していることを示す。
論文 参考訳(メタデータ) (2025-03-17T14:41:51Z) - Deep Learning Calabi-Yau four folds with hybrid and recurrent neural network architectures [0.0]
本稿では,ハイブリッド畳み込み再帰型ニューラルネットワークアーキテクチャに基づくディープラーニングを,h1,1,h2,1,h3,1,h2,2$のデータセットに適用する。
CNN-LSTM-400は、LSTMの隠蔽サイズ400のハイブリッドCNN-LSTMである。
72%のトレーニング比と比較して、精度は99.85%、98.66%、96.26%、84.77%に向上した。
論文 参考訳(メタデータ) (2024-05-27T17:55:05Z) - GLC++: Source-Free Universal Domain Adaptation through Global-Local Clustering and Contrastive Affinity Learning [84.54244771470012]
Source-Free Universal Domain Adaptation (SF-UniDA) は、共通カテゴリに属する「既知の」データを正確に分類することを目的としている。
本稿では,適応的な一対一のグローバルクラスタリングアルゴリズムを備えた新しいグローバル・ローカルクラスタリング(GLC)手法を提案する。
我々はGLCをGLC++に進化させ、対照的な親和性学習戦略を統合する。
論文 参考訳(メタデータ) (2024-03-21T13:57:45Z) - Are LSTMs Good Few-Shot Learners? [4.316506818580031]
2001年、Hochreiterらは、異なるタスクにまたがってバックプロパゲーションで訓練されたLSTMがメタラーニングを行うことができることを示した。
このアプローチを再検討し、現代の数ショットの学習ベンチマークでテストします。
LSTMは、単純な数ショットの正弦波回帰ベンチマークでMAMLよりも優れているが、予想されることに、より複雑な数ショット画像分類ベンチマークでは不足している。
論文 参考訳(メタデータ) (2023-10-22T00:16:30Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models'
Over-Reliance on Superficial Clue [51.713301130055065]
STMモデルにおける表面的手がかりの影響を解析・緩和する。
本稿では,GLS-CSC (Superficial Clue) を含む学習サンプルをトレーニング戦略として提案する。
GLS-CSCは,中国のSTMモデルの堅牢性と一般化性の向上の観点から,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-08T07:10:57Z) - Landslide Susceptibility Prediction Modeling Based on Self-Screening
Deep Learning Model [9.7723814375467]
本稿では,自己スクリーニンググラフ畳み込みネットワークと長期記憶ネットワーク(SGCN-LSTM)を提案する。
設定しきい値間隔外において大きな誤差の地すべりサンプルを自己スクリーニング網で除去する。
環境要因間の非線形関係は空間ノードと時系列の両方から抽出できる。
論文 参考訳(メタデータ) (2023-04-12T10:31:03Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - A Spectral-Spatial-Dependent Global Learning Framework for Insufficient
and Imbalanced Hyperspectral Image Classification [16.93904035334754]
グローバル畳み込み長短期記憶(GCL)とグローバル共同注意機構(GJAM)に基づくスペクトル空間依存型グローバルラーニング(SSDGL)フレームワーク
SSDGLは、不十分で不均衡なサンプル問題において強力な性能を有し、他の最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-29T15:39:03Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。