論文の概要: Korean Named Entity Recognition Based on Language-Specific Features
- arxiv url: http://arxiv.org/abs/2305.06330v1
- Date: Wed, 10 May 2023 17:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:07:40.580331
- Title: Korean Named Entity Recognition Based on Language-Specific Features
- Title(参考訳): 言語特徴量に基づく韓国語のエンティティ認識
- Authors: Yige Chen and KyungTae Lim and Jungyeul Park
- Abstract要約: 本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
提案手法は韓国語を形態素に分解し,名前のあいまいさを低減させる。
統計モデルとニューラルモデルの結果から、提案された形態素ベースのフォーマットが実現可能であることが分かる。
- 参考スコア(独自算出の注目度): 3.1884260020646265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the paper, we propose a novel way of improving named entity recognition in
the Korean language using its language-specific features. While the field of
named entity recognition has been studied extensively in recent years, the
mechanism of efficiently recognizing named entities in Korean has hardly been
explored. This is because the Korean language has distinct linguistic
properties that prevent models from achieving their best performances.
Therefore, an annotation scheme for {Korean corpora} by adopting the CoNLL-U
format, which decomposes Korean words into morphemes and reduces the ambiguity
of named entities in the original segmentation that may contain functional
morphemes such as postpositions and particles, is proposed herein. We
investigate how the named entity tags are best represented in this
morpheme-based scheme and implement an algorithm to convert word-based {and
syllable-based Korean corpora} with named entities into the proposed
morpheme-based format. Analyses of the results of {statistical and neural}
models reveal that the proposed morpheme-based format is feasible, and the
{varied} performances of the models under the influence of various additional
language-specific features are demonstrated. Extrinsic conditions were also
considered to observe the variance of the performances of the proposed models,
given different types of data, including the original segmentation and
different types of tagging formats.
- Abstract(参考訳): 本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
近年、名前付きエンティティ認識の分野は広く研究されているが、韓国における名前付きエンティティを効率的に認識するメカニズムはほとんど研究されていない。
これは、韓国語が、モデルが最高のパフォーマンスを達成できないような言語特性を持っているためである。
そこで, 韓国語の単語を形態素に分解し, 位置や粒子などの機能的形態素を包含するオリジナルセグメンテーションにおける名前の曖昧さを低減する, CoNLL-U 形式を取り入れた {Korean corpora} のアノテーションスキームを提案する。
本稿では,この形態素ベーススキームにおいて,名前付きエンティティタグが最もよく表現されているかを調査し,単語ベースの{and syllable-based korea corpora} を名前付きエンティティに変換するアルゴリズムを実装した。
統計モデルとニューラルモデルの結果から,提案した形態素ベースの形式が実現可能であることが明らかとなり,様々な言語特化特徴の影響下でのモデルの性能が実証された。
外部条件はまた、元のセグメンテーションや異なるタイプのタグ付け形式を含む、異なるタイプのデータを与えられたモデルの性能のばらつきを観察するためにも考慮された。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
具体的には、ディープモデルは、語の内部構造と表現を@textitOverriding$というメカニズムで共同でエンコードし、モルヒムの非分解性を保証する。
提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Improving Korean NLP Tasks with Linguistically Informed Subword
Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。
我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる
本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-07T12:08:21Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - Yet Another Format of Universal Dependencies for Korean [4.909210276089872]
morphUDは韓国のUDツリーバンクで解析結果を上回っている。
我々は,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
論文 参考訳(メタデータ) (2022-09-20T14:21:00Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。