論文の概要: Neural Named Entity Recognition for Kazakh
- arxiv url: http://arxiv.org/abs/2007.13626v2
- Date: Mon, 4 Oct 2021 12:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:32:16.699117
- Title: Neural Named Entity Recognition for Kazakh
- Title(参考訳): カザフスタンにおけるニューラルネーム付きエンティティ認識
- Authors: Gulmira Tolegen, Alymzhan Toleu, Orken Mamyrbayev and Rustam
Mussabayev
- Abstract要約: 形態的複素言語(MCL)における名前付き実体認識の課題に対処するニューラルネットワークをいくつか提示する。
カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。
- 参考スコア(独自算出の注目度): 0.7646713951724009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present several neural networks to address the task of named entity
recognition for morphologically complex languages (MCL). Kazakh is a
morphologically complex language in which each root/stem can produce hundreds
or thousands of variant word forms. This nature of the language could lead to a
serious data sparsity problem, which may prevent the deep learning models from
being well trained for under-resourced MCLs. In order to model the MCLs' words
effectively, we introduce root and entity tag embedding plus tensor layer to
the neural networks. The effects of those are significant for improving NER
model performance of MCLs. The proposed models outperform state-of-the-art
including character-based approaches, and can be potentially applied to other
morphologically complex languages.
- Abstract(参考訳): 形態的に複雑な言語(MCL)に対する名前付き実体認識の課題に対処するために,いくつかのニューラルネットワークを提案する。
カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。
この言語の性質は、深層学習モデルが低リソースのMCLに対して十分に訓練されないという深刻なデータ空間の問題につながる可能性がある。
MCLの単語を効果的にモデル化するために、ニューラルネットワークにルートタグとエンティティタグの埋め込みとテンソル層を導入する。
これらの効果は, MCLのNERモデルの性能向上に有効である。
提案したモデルは文字ベースのアプローチを含む最先端の手法より優れており、他の形態学的に複雑な言語にも適用できる可能性がある。
関連論文リスト
- Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文 参考訳(メタデータ) (2020-12-11T11:55:55Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。