論文の概要: Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models
- arxiv url: http://arxiv.org/abs/2505.06107v1
- Date: Fri, 09 May 2025 15:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.303518
- Title: Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models
- Title(参考訳): 名前に基づく国籍検出モデルを用いたスコラの帰路移動からの移住の微分
- Authors: Faeze Ghorbanpour, Thiago Zordan Malaguth, Aliakbar Akbaritabar,
- Abstract要約: ほとんどのWebおよびデジタルトレースデータには、プライバシー上の懸念から個人の国籍に関する情報は含まれていない。
本論文では,最も利用頻度の低いデータ,すなわちフルネームで国籍を検出する手法を提案する。
以上の結果から,第1版国を国籍の代理として活用することは,返却フローの規模を過小評価することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most web and digital trace data do not include information about an individual's nationality due to privacy concerns. The lack of data on nationality can create challenges for migration research. It can lead to a left-censoring issue since we are uncertain about the migrant's country of origin. Once we observe an emigration event, if we know the nationality, we can differentiate it from return migration. We propose methods to detect the nationality with the least available data, i.e., full names. We use the detected nationality in comparison with the country of academic origin, which is a common approach in studying the migration of researchers. We gathered 2.6 million unique name-nationality pairs from Wikipedia and categorized them into families of nationalities with three granularity levels to use as our training data. Using a character-based machine learning model, we achieved a weighted F1 score of 84% for the broadest and 67% for the most granular, country-level categorization. In our empirical study, we used the trained and tested model to assign nationality to 8+ million scholars' full names in Scopus data. Our results show that using the country of first publication as a proxy for nationality underestimates the size of return flows, especially for countries with a more diverse academic workforce, such as the USA, Australia, and Canada. We found that around 48% of emigration from the USA was return migration once we used the country of name origin, in contrast to 33% based on academic origin. In the most recent period, 79% of scholars whose affiliation has consistently changed from the USA to China, and are considered emigrants, have Chinese names in contrast to 41% with a Chinese academic origin. Our proposed methods for addressing left-censoring issues are beneficial for other research that uses digital trace data to study migration.
- Abstract(参考訳): ほとんどのWebおよびデジタルトレースデータには、プライバシー上の懸念から個人の国籍に関する情報は含まれていない。
国籍に関するデータの欠如は、移住研究の課題を生み出す可能性がある。
移民の出身国を不透明にしているため、左遷問題につながる可能性がある。
一度移民イベントを観察したら、国籍を知っていれば、戻りの移住と区別できます。
本論文では,最も利用頻度の低いデータ,すなわちフルネームで国籍を検出する手法を提案する。
検出された国籍は、研究者の移住研究における一般的なアプローチである学術的起源の国と比較される。
私たちはWikipediaから260万のユニークな名前と国籍のペアを集め、トレーニングデータとして使用する3つの粒度レベルを持つ国籍の家族に分類しました。
文字ベース機械学習モデルを用いて、最も広い国では84%、最も粒度の細かい国レベルでの分類では67%の重み付きF1スコアを得た。
実験的な研究では、トレーニングされたテストされたモデルを使って、スコパスのデータで800万人以上の学者のフルネームに国籍を割り当てました。
以上の結果から,米国,オーストラリア,カナダなど,より多様な学術的労働力を持つ国では,第1号の国を国籍の代行として利用することが,リターンフローの規模を過小評価していることがわかった。
その結果、アメリカからの移住の約48%は、学歴に基づく33%とは対照的に、名前の国を一度使ったときの帰国だった。
直近では、アメリカから中国に一貫して改宗した学者の79%が、中国からの移民と見なされているが、中国の学術的起源である41%とは対照的に中国系である。
左検閲問題に対処する手法は,デジタルトレースデータを用いて移動を研究する他の研究にとって有益である。
関連論文リスト
- Measuring Global Migration Flows using Online Data [0.38836072943850625]
プライバシー保護された30億人のFacebookユーザーの記録を用いて、月間181カ国の国間移動フローを推定する。
我々は2022年に3910万人が海外に移住したと見積もっている(我が国の人口の0.63%)。
研究・政策介入を支援するため、人道データ交換を通じてこれらの見積もりを公開します。
論文 参考訳(メタデータ) (2025-04-16T01:19:26Z) - The diaspora model for human migration [0.07852714805965527]
既存のモデルは、フローの変動を説明するために、主に人口規模と移動距離に依存している。
本稿では,移住のダイアスポラモデルを提案し,移住者数(移住者数)と移住者数(国内での目的地)を取り入れた。
本モデルでは,移住者が特定の居住地を選択する確率に影響を及ぼすように,目的地国における既存のディアスポラサイズのみを考慮に入れている。
論文 参考訳(メタデータ) (2023-09-06T15:17:53Z) - This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models [40.61046400448044]
大規模言語モデル (LLM) では, 異なる言語を問うと, 地理的知識が不整合に記憶されることが示されている。
対象とするケーススタディとして、本質的に議論の的かつ多言語的な課題である領土紛争を考察する。
本稿では,様々な言語における応答のバイアスと一貫性を正確に定量化するための評価指標を提案する。
論文 参考訳(メタデータ) (2023-05-24T01:16:17Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Statistical analysis of word flow among five Indo-European languages [0.0]
Google Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。
我々は「移民語」とは、その綴りを変えない借用語の一種である。
論文 参考訳(メタデータ) (2023-01-17T16:12:42Z) - GeoMLAMA: Geo-Diverse Commonsense Probing on Multilingual Pre-Trained
Language Models [68.50584946761813]
我々は多言語言語モデル(mPLM)に基づく地理多言語共通感覚探索のためのフレームワークを提案する。
我々は、GeoMLAMAデータセット上のmBERT、XLM、mT5、XGLMの変種を含む11の標準mPLMをベンチマークする。
1)大きなmPLMの変種は、必ずしもその小さな変種よりもジオ・ディバースの概念を保存していないこと,2)mPLMは西欧の知識に固有の偏りがないこと,3)母国よりも母国に関する知識を調査する方がよいこと,などが分かる。
論文 参考訳(メタデータ) (2022-05-24T17:54:50Z) - 'Moving On' -- Investigating Inventors' Ethnic Origins Using Supervised
Learning [0.0]
特許データは、技術発明に関する豊富な情報を提供するが、発明者の民族的起源は明らかにしていない。
95'202のラベル付き名前のデータセットを構築し、長期記憶(LSTM)を用いた人工的リカレントニューラルネットワークを訓練し、民族起源を予測する。
私はこのモデルを使って、268万人の発明家の民族起源を分類し、調査し、彼らの民族起源の組成に関する新しい記述的証拠を提供する。
論文 参考訳(メタデータ) (2022-01-03T10:47:47Z) - Return migration of German-affiliated researchers: Analyzing departure
and return by gender, cohort, and discipline using Scopus bibliometric data
1996-2020 [0.6299766708197883]
我々は、1996-2020年にドイツから少なくとも一度はアフィリエイトアドレスを公表した1100万人の研究者による800万冊の出版物について、スコパスの文献データを用いている。
われわれの分析は、ドイツに残る研究者と移住した研究者と最終的に帰国した研究者との間の重要なキャリアステージとジェンダー格差を浮き彫りにした。
論文 参考訳(メタデータ) (2021-10-15T19:59:21Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Brain Drain and Brain Gain in Russia: Analyzing International Migration
of Researchers by Discipline using Scopus Bibliometric Data 1996-2020 [77.34726150561087]
我々は、1996-2020年に、スコパスのインデクシングされたソースでロシア関連アドレスを公表したすべての研究者を分析した。
ロシアは1990年代後半から2000年代初頭にかけてドナー国であったが、近年は比較的バランスの取れた研究者の流通を経験した。
全体として、ロシアから移住した研究者は、ロシアに移住した研究者よりも多く、成績が優れていた。
論文 参考訳(メタデータ) (2020-08-07T12:47:38Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。