論文の概要: J-UniMorph: Japanese Morphological Annotation through the Universal
Feature Schema
- arxiv url: http://arxiv.org/abs/2402.14411v1
- Date: Thu, 22 Feb 2024 09:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:44:57.807665
- Title: J-UniMorph: Japanese Morphological Annotation through the Universal
Feature Schema
- Title(参考訳): J-UniMorph:Universal Feature Schemaによる日本語形態素アノテーション
- Authors: Kosuke Matsuzaki, Masaya Taniguchi, Kentaro Inui, Keisuke Sakaguchi
- Abstract要約: 日本語形態素データセットであるJ-UniMorphをUniMorph特徴スキーマに基づいて構築する。
このデータセットは、言語の凝集性に特徴的な、ユニークで豊かな動詞形式に対処する。
J-UniMorphは、Wiktionaryから自動的に抽出される既存のUniMorphの日本語サブセットと自身を区別する。
- 参考スコア(独自算出の注目度): 30.144889768349145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a Japanese Morphology dataset, J-UniMorph, developed based on
the UniMorph feature schema. This dataset addresses the unique and rich verb
forms characteristic of the language's agglutinative nature. J-UniMorph
distinguishes itself from the existing Japanese subset of UniMorph, which is
automatically extracted from Wiktionary. On average, the Wiktionary Edition
features around 12 inflected forms for each word and is primarily dominated by
denominal verbs (i.e., [noun] +suru (do-PRS)). Morphologically, this form is
equivalent to the verb suru (do). In contrast, J-UniMorph explores a much
broader and more frequently used range of verb forms, offering 118 inflected
forms for each word on average. It includes honorifics, a range of politeness
levels, and other linguistic nuances, emphasizing the distinctive
characteristics of the Japanese language. This paper presents detailed
statistics and characteristics of J-UniMorph, comparing it with the Wiktionary
Edition. We release J-UniMorph and its interactive visualizer publicly
available, aiming to support cross-linguistic research and various
applications.
- Abstract(参考訳): 日本語形態素データセットであるJ-UniMorphをUniMorph特徴スキーマに基づいて構築する。
このデータセットは、言語の凝集性に特徴的な一意で豊かな動詞形式を扱う。
J-UniMorphは、Wiktionaryから自動的に抽出される既存のUniMorphサブセットと区別する。
平均すると、Wiktionary Editionは各単語に約12の屈折形があり、主に名詞動詞(つまり [noun] +suru (do-PRS))が支配的である。
形態的には、この形式は動詞suru(do)と等価である。
対照的に、J-UniMorphはより広く、より頻繁に使われる動詞の形式を探求し、平均して各単語に対して118の屈折形を提供する。
敬語、様々な礼儀正しい水準、その他の言語ニュアンスを含み、日本語の特徴を強調している。
本稿では、J-UniMorphの詳細な統計と特徴をWiktionary Editionと比較する。
我々はJ-UniMorphとそのインタラクティブなヴィジュアライザを公開し、言語横断研究や様々なアプリケーションをサポートすることを目的としている。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - Korean Named Entity Recognition Based on Language-Specific Features [3.1884260020646265]
本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
提案手法は韓国語を形態素に分解し,名前のあいまいさを低減させる。
統計モデルとニューラルモデルの結果から、提案された形態素ベースのフォーマットが実現可能であることが分かる。
論文 参考訳(メタデータ) (2023-05-10T17:34:52Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Morphological Reinflection with Multiple Arguments: An Extended
Annotation schema and a Georgian Case Study [7.245355976804435]
我々はUniMorphの形態的データセットを拡張し、真の接尾辞を用いて複数の引数に一致する動詞をカバーする。
データセットは、既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持つ。
このベンチマークのカバレッジ、一貫性、解釈性を改善することが期待されている。
論文 参考訳(メタデータ) (2022-03-16T10:47:29Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。