論文の概要: Word segmentation granularity in Korean
- arxiv url: http://arxiv.org/abs/2309.03713v1
- Date: Thu, 7 Sep 2023 13:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:59:06.928961
- Title: Word segmentation granularity in Korean
- Title(参考訳): 韓国語における単語分割粒度
- Authors: Jungyeul Park, Mija Kim
- Abstract要約: 韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
- 参考スコア(独自算出の注目度): 1.0619039878979954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes word {segmentation} granularity in Korean language
processing. From a word separated by blank space, which is termed an eojeol, to
a sequence of morphemes in Korean, there are multiple possible levels of word
segmentation granularity in Korean. For specific language processing and corpus
annotation tasks, several different granularity levels have been proposed and
utilized, because the agglutinative languages including Korean language have a
one-to-one mapping between functional morpheme and syntactic category. Thus, we
analyze these different granularity levels, presenting the examples of Korean
language processing systems for future reference. Interestingly, the
granularity by separating only functional morphemes including case markers and
verbal endings, and keeping other suffixes for morphological derivation results
in the optimal performance for phrase structure parsing. This contradicts
previous best practices for Korean language processing, which has been the de
facto standard for various applications that require separating all morphemes.
- Abstract(参考訳): 本稿では,韓国語処理における単語の粒度について述べる。
韓国語では「eojeol」と呼ばれる空白空間で区切られた単語から形態素の列まで、韓国語では単語分割粒度が複数の可能性がある。
特定の言語処理やコーパスアノテーションタスクにおいて,韓国語を含む凝集言語は機能的形態素と構文的カテゴリーを1対1でマッピングするため,様々な粒度レベルが提案され,活用されている。
そこで我々は,これら異なる粒度レベルを解析し,今後の韓国語処理システムの例を示す。
興味深いことに、ケースマーカーと動詞の終末を含む機能的形態素のみを分離し、形態的派生のための他の接尾辞を保持することにより、句構造解析の最適性能が得られる。
これは、すべての形態素を分離する必要がある様々なアプリケーションのデファクトスタンダードである韓国語処理の以前のベストプラクティスと矛盾する。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - Korean Named Entity Recognition Based on Language-Specific Features [3.1884260020646265]
本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
提案手法は韓国語を形態素に分解し,名前のあいまいさを低減させる。
統計モデルとニューラルモデルの結果から、提案された形態素ベースのフォーマットが実現可能であることが分かる。
論文 参考訳(メタデータ) (2023-05-10T17:34:52Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Are All Good Word Vector Spaces Isomorphic? [79.04509759167952]
言語ペア間の性能のばらつきは, 類型的差異によるだけでなく, 利用可能なモノリンガル資源の大きさによるところが大きい。
論文 参考訳(メタデータ) (2020-04-08T15:49:19Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。