論文の概要: Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean
- arxiv url: http://arxiv.org/abs/2005.12898v1
- Date: Tue, 26 May 2020 17:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:05:37.394877
- Title: Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean
- Title(参考訳): Penn Korean Universal Dependency Treebank (PKT-UD):韓国におけるロバスト解析モデル構築のためのマニュアル改訂
- Authors: Tae Hwan Oh, Ji Yoon Han, Hyonsu Choe, Seokwon Park, Han He, Jinho D.
Choi, Na-Rae Han, Jena D. Hwang, Hansaem Kim
- Abstract要約: 我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
- 参考スコア(独自算出の注目度): 15.899449418195106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we first open on important issues regarding the Penn Korean
Universal Treebank (PKT-UD) and address these issues by revising the entire
corpus manually with the aim of producing cleaner UD annotations that are more
faithful to Korean grammar. For compatibility to the rest of UD corpora, we
follow the UDv2 guidelines, and extensively revise the part-of-speech tags and
the dependency relations to reflect morphological features and flexible
word-order aspects in Korean. The original and the revised versions of PKT-UD
are experimented with transformer-based parsing models using biaffine
attention. The parsing model trained on the revised corpus shows a significant
improvement of 3.0% in labeled attachment score over the model trained on the
previous corpus. Our error analysis demonstrates that this revision allows the
parsing model to learn relations more robustly, reducing several critical
errors that used to be made by the previous model.
- Abstract(参考訳): 本稿では,まず,ペン・韓国・ユニバーサル・ツリーバンク(PKT-UD)に関する重要な課題を整理し,韓国文法に忠実なよりクリーンなUDアノテーションを作成することを目的として,コーパス全体を手作業で改訂する。
UDコーパスの他の部分との互換性については、UDv2ガイドラインに従い、韓国における形態的特徴と柔軟な単語順序の側面を反映する部分音声タグと依存関係を広範囲に改訂する。
PKT-UDの原版と改訂版は、バイファインアテンションを用いたトランスフォーマーベースの解析モデルを用いて実験されている。
修正コーパスでトレーニングした解析モデルでは, 前コーパスでトレーニングしたモデルよりもラベル付きアタッチメントスコアが3.0%向上した。
誤り分析の結果,この修正により,解析モデルがより堅牢に関係を学習できることが示され,それまでのモデルで発生していたいくつかの重要なエラーを低減できた。
関連論文リスト
- Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究では,トルコ語で最初の依存ツリーバンクに対する事前訓練された大規模言語モデルに基づくアノテーション手法を提案する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Deep learning model for Mongolian Citizens Feedback Analysis using Word
Vector Embeddings [0.0]
本研究では,2つの単語埋め込みを用いたモンゴル語のフィードバック分類について検討した。
2012年から2018年にかけて収集されたCyrillicのフィードバックデータを使用します。
その結果, 単語の埋め込みは, 深層学習に基づく提案モデルを改善することが示唆された。
論文 参考訳(メタデータ) (2023-02-23T14:49:31Z) - Yet Another Format of Universal Dependencies for Korean [4.909210276089872]
morphUDは韓国のUDツリーバンクで解析結果を上回っている。
我々は,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
論文 参考訳(メタデータ) (2022-09-20T14:21:00Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - On the Relation between Syntactic Divergence and Zero-Shot Performance [22.195133438732633]
我々は、英語から多種多様な言語にパースするUniversal Dependencies (UD) を移譲し、2つの実験を行う。
我々は、英語のソースエッジが翻訳で保存される範囲に基づいてゼロショット性能を解析する。
両実験の結果から,言語間安定性とゼロショット解析性能の強い関係が示唆された。
論文 参考訳(メタデータ) (2021-10-09T21:09:21Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。