論文の概要: K-UniMorph: Korean Universal Morphology and its Feature Schema
- arxiv url: http://arxiv.org/abs/2305.06335v1
- Date: Wed, 10 May 2023 17:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 11:54:36.639728
- Title: K-UniMorph: Korean Universal Morphology and its Feature Schema
- Title(参考訳): k-unimorph:韓国ユニバーサルモルフォロジーとその特徴スキーマ
- Authors: Eunkyul Leah Jo and Kyuwon Kim and Xihan Wu and KyungTae Lim and
Jungyeul Park and Chulwoo Park
- Abstract要約: 韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
- 参考スコア(独自算出の注目度): 1.3048920509133806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present in this work a new Universal Morphology dataset for Korean.
Previously, the Korean language has been underrepresented in the field of
morphological paradigms amongst hundreds of diverse world languages. Hence, we
propose this Universal Morphological paradigms for the Korean language that
preserve its distinct characteristics. For our K-UniMorph dataset, we outline
each grammatical criterion in detail for the verbal endings, clarify how to
extract inflected forms, and demonstrate how we generate the morphological
schemata. This dataset adopts morphological feature schema from Sylak-Glassman
et al. (2015) and Sylak-Glassman (2016) for the Korean language as we extract
inflected verb forms from the Sejong morphologically analyzed corpus that is
one of the largest annotated corpora for Korean. During the data creation, our
methodology also includes investigating the correctness of the conversion from
the Sejong corpus. Furthermore, we carry out the inflection task using three
different Korean word forms: letters, syllables and morphemes. Finally, we
discuss and describe future perspectives on Korean morphological paradigms and
the dataset.
- Abstract(参考訳): 本稿では,韓国語のための新しいユニバーサルモルフォロジーデータセットを提案する。
以前は、韓国語は数百の多種多様な世界言語の中で形態学的パラダイムの分野で過小評価されていた。
そこで本稿では,韓国語に対するこの普遍形態学パラダイムを提案する。
K-UniMorphデータセットでは、各文法的基準を言語終末について詳細に概説し、屈折形を抽出する方法を明らかにし、形態的スキーマをどのように生成するかを示す。
本データセットは,韓国語におけるSylak-Glassman et al. (2015) とSylak-Glassman (2016) による形態的特徴スキーマを採用し,Sejong morphologically analysis corpus から入力動詞を抽出した。
データ作成中,本手法ではsejongコーパスからの変換の正確性についても検討する。
さらに,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
最後に,韓国の形態的パラダイムとデータセットの今後の展望について論じる。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - Korean Named Entity Recognition Based on Language-Specific Features [3.1884260020646265]
本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
提案手法は韓国語を形態素に分解し,名前のあいまいさを低減させる。
統計モデルとニューラルモデルの結果から、提案された形態素ベースのフォーマットが実現可能であることが分かる。
論文 参考訳(メタデータ) (2023-05-10T17:34:52Z) - Yet Another Format of Universal Dependencies for Korean [4.909210276089872]
morphUDは韓国のUDツリーバンクで解析結果を上回っている。
我々は,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
論文 参考訳(メタデータ) (2022-09-20T14:21:00Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。