論文の概要: Yet Another Format of Universal Dependencies for Korean
- arxiv url: http://arxiv.org/abs/2209.09742v1
- Date: Tue, 20 Sep 2022 14:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:18:50.390312
- Title: Yet Another Format of Universal Dependencies for Korean
- Title(参考訳): 韓国の「普遍的依存」のもう1つのフォーマット
- Authors: Yige Chen and Eunkyul Leah Jo and Yundong Yao and KyungTae Lim and
Miikka Silfverberg and Francis M. Tyers and Jungyeul Park
- Abstract要約: morphUDは韓国のUDツリーバンクで解析結果を上回っている。
我々は,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
- 参考スコア(独自算出の注目度): 4.909210276089872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a morpheme-based scheme for Korean dependency
parsing and adopt the proposed scheme to Universal Dependencies. We present the
linguistic rationale that illustrates the motivation and the necessity of
adopting the morpheme-based format, and develop scripts that convert between
the original format used by Universal Dependencies and the proposed
morpheme-based format automatically. The effectiveness of the proposed format
for Korean dependency parsing is then testified by both statistical and neural
models, including UDPipe and Stanza, with our carefully constructed
morpheme-based word embedding for Korean. morphUD outperforms parsing results
for all Korean UD treebanks, and we also present detailed error analyses.
- Abstract(参考訳): 本研究では,韓国の係り受け解析のための形態素に基づくスキームを提案し,このスキームをユニバーサル依存に適用する。
本稿では,形態素ベースのフォーマットを採用する動機と必要性を示す言語学的根拠を示し,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
UDPipe や Stanza などの統計モデルとニューラルモデルにより,韓国語へのモーフィムベースの単語埋め込みを慎重に構築した上で,韓国語係り受け解析方式の有効性を検証した。
morphudは韓国全ud木バンクの解析結果を上回り,詳細な誤差解析を行う。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - Improving Korean NLP Tasks with Linguistically Informed Subword
Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。
我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる
本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-07T12:08:21Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - K-UniMorph: Korean Universal Morphology and its Feature Schema [1.3048920509133806]
韓国語に対する新しいユニバーサル・モルフォロジー・データセットを提案する。
文末の文法的基準を詳細に概説し, 屈折形を抽出する方法を明らかにし, 形態的スキーマの生成方法を示す。
我々は,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
論文 参考訳(メタデータ) (2023-05-10T17:44:01Z) - Korean Named Entity Recognition Based on Language-Specific Features [3.1884260020646265]
本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。
提案手法は韓国語を形態素に分解し,名前のあいまいさを低減させる。
統計モデルとニューラルモデルの結果から、提案された形態素ベースのフォーマットが実現可能であることが分かる。
論文 参考訳(メタデータ) (2023-05-10T17:34:52Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean [15.899449418195106]
我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
論文 参考訳(メタデータ) (2020-05-26T17:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。