論文の概要: Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean
- arxiv url: http://arxiv.org/abs/2005.12898v1
- Date: Tue, 26 May 2020 17:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:05:37.394877
- Title: Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean
- Title(参考訳): Penn Korean Universal Dependency Treebank (PKT-UD):韓国におけるロバスト解析モデル構築のためのマニュアル改訂
- Authors: Tae Hwan Oh, Ji Yoon Han, Hyonsu Choe, Seokwon Park, Han He, Jinho D.
Choi, Na-Rae Han, Jena D. Hwang, Hansaem Kim
- Abstract要約: 我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
- 参考スコア(独自算出の注目度): 15.899449418195106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we first open on important issues regarding the Penn Korean
Universal Treebank (PKT-UD) and address these issues by revising the entire
corpus manually with the aim of producing cleaner UD annotations that are more
faithful to Korean grammar. For compatibility to the rest of UD corpora, we
follow the UDv2 guidelines, and extensively revise the part-of-speech tags and
the dependency relations to reflect morphological features and flexible
word-order aspects in Korean. The original and the revised versions of PKT-UD
are experimented with transformer-based parsing models using biaffine
attention. The parsing model trained on the revised corpus shows a significant
improvement of 3.0% in labeled attachment score over the model trained on the
previous corpus. Our error analysis demonstrates that this revision allows the
parsing model to learn relations more robustly, reducing several critical
errors that used to be made by the previous model.
- Abstract(参考訳): 本稿では,まず,ペン・韓国・ユニバーサル・ツリーバンク(PKT-UD)に関する重要な課題を整理し,韓国文法に忠実なよりクリーンなUDアノテーションを作成することを目的として,コーパス全体を手作業で改訂する。
UDコーパスの他の部分との互換性については、UDv2ガイドラインに従い、韓国における形態的特徴と柔軟な単語順序の側面を反映する部分音声タグと依存関係を広範囲に改訂する。
PKT-UDの原版と改訂版は、バイファインアテンションを用いたトランスフォーマーベースの解析モデルを用いて実験されている。
修正コーパスでトレーニングした解析モデルでは, 前コーパスでトレーニングしたモデルよりもラベル付きアタッチメントスコアが3.0%向上した。
誤り分析の結果,この修正により,解析モデルがより堅牢に関係を学習できることが示され,それまでのモデルで発生していたいくつかの重要なエラーを低減できた。
関連論文リスト
- Linear Recency Bias During Training Improves Transformers' Fit to Reading Times [16.55240473621401]
本稿では,アテンションスコアに付加される電流バイアスであるALiBiを用いたTransformerモデルの変更について検討する。
ALiBiのスロープの混合 -- 各アテンションヘッドのメモリ減衰率を決定する -- は、ALiBiのモデルがさまざまな言語的依存関係を追跡するのを助ける役割を果たす可能性がある。
論文 参考訳(メタデータ) (2024-09-17T14:57:51Z) - Thai Universal Dependency Treebank [0.0]
我々は,3,627本の木からなるタイ国最大のツリーバンクであるタイ・ユニバーサル・依存性ツリーバンク(TUD)について,UD(Universal Dependency)フレームワークに従って紹介する。
次に、事前学習したエンコーダを組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
その結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存するコンポーネントの最適な選択についての洞察を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-05-13T09:48:13Z) - Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts [107.32683485639654]
テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
論文 参考訳(メタデータ) (2024-03-17T05:05:11Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Yet Another Format of Universal Dependencies for Korean [4.909210276089872]
morphUDは韓国のUDツリーバンクで解析結果を上回っている。
我々は,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。
論文 参考訳(メタデータ) (2022-09-20T14:21:00Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。