論文の概要: Neural Named Entity Recognition for Kazakh
- arxiv url: http://arxiv.org/abs/2007.13626v2
- Date: Mon, 4 Oct 2021 12:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:32:16.699117
- Title: Neural Named Entity Recognition for Kazakh
- Title(参考訳): カザフスタンにおけるニューラルネーム付きエンティティ認識
- Authors: Gulmira Tolegen, Alymzhan Toleu, Orken Mamyrbayev and Rustam
Mussabayev
- Abstract要約: 形態的複素言語(MCL)における名前付き実体認識の課題に対処するニューラルネットワークをいくつか提示する。
カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。
- 参考スコア(独自算出の注目度): 0.7646713951724009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present several neural networks to address the task of named entity
recognition for morphologically complex languages (MCL). Kazakh is a
morphologically complex language in which each root/stem can produce hundreds
or thousands of variant word forms. This nature of the language could lead to a
serious data sparsity problem, which may prevent the deep learning models from
being well trained for under-resourced MCLs. In order to model the MCLs' words
effectively, we introduce root and entity tag embedding plus tensor layer to
the neural networks. The effects of those are significant for improving NER
model performance of MCLs. The proposed models outperform state-of-the-art
including character-based approaches, and can be potentially applied to other
morphologically complex languages.
- Abstract(参考訳): 形態的に複雑な言語(MCL)に対する名前付き実体認識の課題に対処するために,いくつかのニューラルネットワークを提案する。
カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。
この言語の性質は、深層学習モデルが低リソースのMCLに対して十分に訓練されないという深刻なデータ空間の問題につながる可能性がある。
MCLの単語を効果的にモデル化するために、ニューラルネットワークにルートタグとエンティティタグの埋め込みとテンソル層を導入する。
これらの効果は, MCLのNERモデルの性能向上に有効である。
提案したモデルは文字ベースのアプローチを含む最先端の手法より優れており、他の形態学的に複雑な言語にも適用できる可能性がある。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - Incorporating Class-based Language Model for Named Entity Recognition in
Factorized Neural Transducer [53.58792415126816]
C-FNTと呼ばれるクラスベースのLMをFNTに組み込む新しいE2Eモデルを提案する。
C-FNTでは、名前付きエンティティの言語モデルスコアは、その表面形式の代わりに名前クラスに関連付けることができる。
論文 参考訳(メタデータ) (2023-09-14T12:14:49Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文 参考訳(メタデータ) (2020-12-11T11:55:55Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。