論文の概要: Nationality and Region Prediction from Names: A Comparative Study of Neural Models and Large Language Models
- arxiv url: http://arxiv.org/abs/2601.08692v1
- Date: Tue, 13 Jan 2026 16:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.279981
- Title: Nationality and Region Prediction from Names: A Comparative Study of Neural Models and Large Language Models
- Title(参考訳): 名前からの国籍と地域予測:ニューラルモデルと大規模言語モデルの比較研究
- Authors: Keito Inoshita,
- Abstract要約: 大規模言語モデル(LLM)は、事前訓練中に得られた世界の知識を活用することで、課題に対処する可能性がある。
LLMはあらゆる粒度レベルで神経モデルより優れており、粒度が粗くなるにつれてギャップが狭まる。
単純な機械学習手法は高い周波数ロバスト性を示し、事前訓練されたモデルとLLMは低周波国籍の劣化を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting nationality from personal names has practical value in marketing, demographic research, and genealogical studies. Conventional neural models learn statistical correspondences between names and nationalities from task-specific training data, posing challenges in generalizing to low-frequency nationalities and distinguishing similar nationalities within the same region. Large language models (LLMs) have the potential to address these challenges by leveraging world knowledge acquired during pre-training. In this study, we comprehensively compare neural models and LLMs on nationality prediction, evaluating six neural models and six LLM prompting strategies across three granularity levels (nationality, region, and continent), with frequency-based stratified analysis and error analysis. Results show that LLMs outperform neural models at all granularity levels, with the gap narrowing as granularity becomes coarser. Simple machine learning methods exhibit the highest frequency robustness, while pre-trained models and LLMs show degradation for low-frequency nationalities. Error analysis reveals that LLMs tend to make ``near-miss'' errors, predicting the correct region even when nationality is incorrect, whereas neural models exhibit more cross-regional errors and bias toward high-frequency classes. These findings indicate that LLM superiority stems from world knowledge, model selection should consider required granularity, and evaluation should account for error quality beyond accuracy.
- Abstract(参考訳): 個人名から国籍を予測することは、マーケティング、人口統計学、遺伝学研究において実践的な価値がある。
従来のニューラルモデルは、タスク固有のトレーニングデータから名前と国籍の統計的対応を学習し、低頻度の国籍を一般化し、同じ領域内で同様の国籍を区別する上での課題を提起する。
大規模言語モデル(LLM)は、事前学習中に得られた世界の知識を活用することで、これらの課題に対処する可能性がある。
本研究では,3つの粒度レベル(国籍,地域,大陸)にまたがる6つのニューラルモデルと6つのLLMを,周波数に基づく成層解析と誤り解析により総合的に比較した。
その結果、LLMはあらゆる粒度レベルで神経モデルより優れており、粒度が粗くなるにつれてギャップは狭くなることがわかった。
単純な機械学習手法は高い周波数ロバスト性を示し、事前訓練されたモデルとLLMは低周波国籍の劣化を示す。
誤り分析は、LLMが'near-miss'の誤りを犯しがちで、国籍が間違っていても正しい領域を予測しているのに対して、ニューラルモデルはよりクロスリージョンなエラーと高周波クラスへのバイアスを示す。
これらの結果から,LLMの優越性は世界知識に起因し,モデル選択は必要粒度を考慮すべきであり,評価は精度以上の誤差品質を考慮すべきであることが示唆された。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks [10.807620342718309]
事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。
本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。
この効果を緩和するために,チェックポイントマージやメモリ化対応リウェイトといった手法を提案する。
論文 参考訳(メタデータ) (2025-08-06T06:34:12Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。