論文の概要: Multicultural Name Recognition For Previously Unseen Names
- arxiv url: http://arxiv.org/abs/2401.12941v1
- Date: Tue, 23 Jan 2024 17:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:57:58.023732
- Title: Multicultural Name Recognition For Previously Unseen Names
- Title(参考訳): 未発見名に対する多文化名認識
- Authors: Alexandra Loessberg-Zahl
- Abstract要約: 本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State of the art Named Entity Recognition (NER) models have achieved an
impressive ability to extract common phrases from text that belong to labels
such as location, organization, time, and person. However, typical NER systems
that rely on having seen a specific entity in their training data in order to
label an entity perform poorly on rare or unseen entities ta in order to label
an entity perform poorly on rare or unseen entities (Derczynski et al., 2017).
This paper attempts to improve recognition of person names, a diverse category
that can grow any time someone is born or changes their name. In order for
downstream tasks to not exhibit bias based on cultural background, a model
should perform well on names from a variety of backgrounds. In this paper I
experiment with the training data and input structure of an English Bi-LSTM
name recognition model. I look at names from 103 countries to compare how well
the model performs on names from different cultures, specifically in the
context of a downstream task where extracted names will be matched to
information on file. I find that a model with combined character and word input
outperforms word-only models and may improve on accuracy compared to classical
NER models that are not geared toward identifying unseen entity values.
- Abstract(参考訳): state of the art named entity recognition(ner)モデルは、場所、組織、時間、人といったラベルに属するテキストから共通のフレーズを抽出する素晴らしい能力を達成しました。
しかしながら、特定のエンティティをトレーニングデータで見ることに依存する典型的なNERシステムは、希少または未確認のエンティティ ta に対して粗悪なパフォーマンスを行い、希少または未確認のエンティティに対して粗悪なパフォーマンスを行う(Derczynski et al., 2017)。
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
下流のタスクが文化的背景に基づいてバイアスを示さないようにするために、モデルは様々なバックグラウンドの名前でうまく振る舞う必要がある。
本稿では,英語Bi-LSTM名前認識モデルのトレーニングデータと入力構造について実験する。
103か国の名前を見て、異なる文化、特に抽出された名前がファイルの情報とマッチする下流タスクのコンテキストで、モデルがいかにうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルでは単語のみのモデルよりも優れており,未知のエンティティ値の同定を目的としない古典的NERモデルと比較して精度の向上が期待できる。
関連論文リスト
- Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition [5.262708162539423]
名前付きエンティティ認識(NER)は、わずかな例だけでテキスト内の名前付きエンティティを検出する。
有望な研究の1つの行は、各エンティティタイプの自然言語記述を活用することである。
本稿では,新しい実体型の言語化を解釈する前に,強い意味が与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T08:22:44Z) - Using LSTM and GRU With a New Dataset for Named Entity Recognition in
the Arabic Language [0.0]
BIOESフォーマットを使って単語をタグ付けすることで、ネストした名前エンティティを処理できます。
本研究は、アラビア語で名前付きエンティティ認識モデルを構築するために、長期記憶ユニット(LSTM)とGRU(Gated Recurrent Units)を提案する。
論文 参考訳(メタデータ) (2023-04-06T22:14:02Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - A Realistic Study of Auto-regressive Language Models for Named Entity
Typing and Recognition [7.345578385749421]
メタ学習装置を用いて、名前付きエンティティ認識のための事前学習言語モデルについて検討する。
まず、ゼロショット転送シナリオにおいて、名前付きエンティティ型付け(NET)をテストする。次に、推論の例をいくつか挙げて、NERを実行する。
本稿では,事前学習したモデルにのみアクセス可能で,これらのグループについて報告する際,見知らぬ名前や稀な名前を選択する手法を提案する。
論文 参考訳(メタデータ) (2021-08-26T15:29:00Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z) - Beheshti-NER: Persian Named Entity Recognition Using BERT [0.0]
本稿では、ペルシャ語で名前付きエンティティ認識のモデルを作成するために、事前訓練された深層双方向ネットワークBERTを使用する。
その結果,83.5 と 88.4 f1 の CONLL スコアをフレーズレベルと単語レベルで評価した。
論文 参考訳(メタデータ) (2020-03-19T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。