論文の概要: NameBERT: Scaling Name-Based Nationality Classification with LLM-Augmented Open Academic Data
- arxiv url: http://arxiv.org/abs/2604.10401v1
- Date: Sun, 12 Apr 2026 01:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.993769
- Title: NameBERT: Scaling Name-Based Nationality Classification with LLM-Augmented Open Academic Data
- Title(参考訳): NameBERT: LLM拡張オープンアカデミックデータによる名前ベース国籍分類のスケーリング
- Authors: Cong Ming, Ruixin Shi, Yifan Hu,
- Abstract要約: Open Academic Graph (OAG) から大規模名称国籍データセットを作成する。
本稿では,LLMを推論エンジンではなくデータセットエンリッチアとして活用するフレームワークを提案する。
NameBERTモデルは、ドメイン内および外部の両方のタスクにおいて、最先端のベースラインよりもはるかに高い精度を達成する。
- 参考スコア(独自算出の注目度): 10.976599952824463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring nationality from personal names is a critical capability for equity and bias monitoring, personalization, and a valuable tool in biomedical and sociological research. However, existing name-based nationality classifiers are typically trained on relatively small or source-specific labeled datasets, which can introduce coverage gaps and limit performance for underrepresented countries. While large language models (LLMs) demonstrate strong zero-shot performance for name-based nationality prediction, their computational cost and latency make them impractical for real-time, large-scale deployment. In this work, we created a large-scale name-nationality dataset from the Open Academic Graph (OAG) and introduce a framework that leverages LLMs as dataset enrichers rather than inference engines. We augment low-resource countries with LLM-generated names and evaluate on real and synthetic-tail test sets. We find that augmentation produces large gains when evaluation includes synthetic tail names and still offers a modest lift on tail-country metrics otherwise. Overall, NameBERT models achieve significantly higher accuracy than state-of-the-art baselines across both in- and out-of-domain tasks, while remaining efficient for large-scale inference compared to LLMs.
- Abstract(参考訳): 個人名から国籍を推定することは、株式や偏見の監視、個人化、バイオメディカルおよび社会学研究における貴重なツールにとって重要な能力である。
しかし、既存の名前ベースの国籍分類器は、一般的に比較的小さなまたはソース固有のラベル付きデータセットで訓練されており、カバーギャップを導入し、表現されていない国での性能を制限することができる。
大きな言語モデル(LLM)は、名前ベースの国籍予測において強力なゼロショット性能を示すが、その計算コストとレイテンシにより、リアルタイムで大規模なデプロイメントでは実用的ではない。
本研究では,Open Academic Graph(OAG)から大規模な名称国籍データセットを作成し,LLMを推論エンジンではなくデータセットエンリッチアとして活用するフレームワークを紹介した。
LLM を作成した低資源国を拡大し,実検体および合成検体を用いて評価した。
総合的なテール名を含む評価では,増強が大きな利益をもたらすことが判明し,それ以外は,テールカントリーの指標を緩やかに上昇させる。
全体として、NameBERTモデルは、ドメイン内および外部の両方のタスクで最先端のベースラインよりもはるかに精度が高く、LLMと比較して大規模な推論には効率的である。
関連論文リスト
- Who Does This Name Remind You of ? Nationality Prediction via Large Language Model Associative Memory [0.0]
国籍と地域予測のタスクは、言語的特徴だけでなく、文化的、歴史的背景も理解する必要がある。
LLM世界知識を連想記憶として活用する新しいフレームワークであるLLM連想記憶エージェント(LAMA)を提案する。
99か国の国籍予測タスクにおいて、LAMAは0.817の精度を達成し、従来のLLMプロンプト法やニューラルモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-19T06:59:53Z) - Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset [8.437906092903582]
ルクセンブルク語で名前付きエンティティ認識(NER)のためのデータセットである judgeWEL を,大規模言語モデル(LLM)を用いて自動的にラベル付けし,検証する。
ウィキペディアの記事の内部リンクを利用して、対応するウィキデータエントリに基づいてエンティティタイプを推論する。
このようなリンクは均一に信頼性がないため、高品質なラベル付き文のみを識別・保持するために複数のLLMを使用・比較することによりノイズを軽減する。
論文 参考訳(メタデータ) (2026-01-01T17:53:38Z) - Improving Named Entity Transcription with Contextual LLM-based Revision [14.078146578977599]
音声認識予測において,不正確な名前付きエンティティを修正するための大言語モデル (LLM) のリビジョン機構を導入する。
提案手法は、名前付きエンティティに対して最大30%の相対的なWER削減を実現する。
論文 参考訳(メタデータ) (2025-06-12T14:53:48Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。