論文の概要: A Practical Chinese Dependency Parser Based on A Large-scale Dataset
- arxiv url: http://arxiv.org/abs/2009.00901v2
- Date: Thu, 3 Sep 2020 02:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 18:25:18.792007
- Title: A Practical Chinese Dependency Parser Based on A Large-scale Dataset
- Title(参考訳): 大規模データセットに基づく中国の実践的依存パーザ
- Authors: Shuai Zhang, Lijie Wang, Ke Sun, Xinyan Xiao
- Abstract要約: 依存性解析は長年にわたる自然言語処理タスクであり、アウトプットはさまざまな下流タスクに不可欠である。
近年、ニューラルネットワークベースの(NNベースの)依存性は大きな進歩を遂げ、最先端の結果を得た。
NNベースのアプローチには大量のラベル付きトレーニングデータが必要です。
- 参考スコア(独自算出の注目度): 21.359679124869402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dependency parsing is a longstanding natural language processing task, with
its outputs crucial to various downstream tasks. Recently, neural network based
(NN-based) dependency parsing has achieved significant progress and obtained
the state-of-the-art results. As we all know, NN-based approaches require
massive amounts of labeled training data, which is very expensive because it
requires human annotation by experts. Thus few industrial-oriented dependency
parser tools are publicly available. In this report, we present Baidu
Dependency Parser (DDParser), a new Chinese dependency parser trained on a
large-scale manually labeled dataset called Baidu Chinese Treebank (DuCTB).
DuCTB consists of about one million annotated sentences from multiple sources
including search logs, Chinese newswire, various forum discourses, and
conversation programs. DDParser is extended on the graph-based biaffine parser
to accommodate to the characteristics of Chinese dataset. We conduct
experiments on two test sets: the standard test set with the same distribution
as the training set and the random test set sampled from other sources, and the
labeled attachment scores (LAS) of them are 92.9% and 86.9% respectively.
DDParser achieves the state-of-the-art results, and is released at
https://github.com/baidu/DDParser.
- Abstract(参考訳): 依存性解析は自然言語処理タスクであり、その出力は様々な下流タスクに不可欠である。
近年、ニューラルネットワークに基づく(NNベースの)依存性解析は大きな進歩を遂げ、最先端の結果を得た。
誰もが知っているように、nnベースのアプローチには大量のラベル付きトレーニングデータが必要です。
したがって、産業指向の依存性パーサツールはほとんど公開されていない。
本稿では,baidu chinese treebank(ductb)と呼ばれる大規模手動ラベル付きデータセット上でトレーニングされた,新しい中国語依存性パーサであるbaidu dependency parser(ddparser)を提案する。
ductbは、検索ログ、中国語ニュースワイヤ、フォーラムのさまざまな談話、会話プログラムなど、複数のソースから100万の注釈付き文からなる。
DDParserは、中国のデータセットの特徴に合わせてグラフベースのバイナリパーサに拡張される。
トレーニングセットと同分布の標準テストセットと、他のソースからサンプリングされたランダムテストセット、およびラベル付きアタッチメントスコア(las)はそれぞれ92.9%と86.9%である。
DDParserは最先端の結果を達成し、https://github.com/baidu/DDParser.comでリリースされる。
関連論文リスト
- Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Substructure Distribution Projection for Zero-Shot Cross-Lingual
Dependency Parsing [55.69800855705232]
SubDPは、サブ構造分布を別々に投影することで、あるドメインの構造を別のドメインに分割する手法である。
我々は,0ショットの言語間依存関係解析におけるSubDPの評価を行い,依存関係弧をサブストラクチャとする。
論文 参考訳(メタデータ) (2021-10-16T10:12:28Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - DT-grams: Structured Dependency Grammar Stylometry for Cross-Language
Authorship Attribution [0.20305676256390934]
本稿では,依存性グラフと音声タグの普遍的部分に基づく著者分析のための新しい言語非依存機能DT-gramを提案する。
我々は、バイリンガル著者の翻訳されていないデータセットに対して、クロスランゲージなオーサリング属性を実行することでDT-gramを評価する。
論文 参考訳(メタデータ) (2021-06-10T11:50:07Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - Neural Approaches for Data Driven Dependency Parsing in Sanskrit [19.844420181108177]
我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
論文 参考訳(メタデータ) (2020-04-17T06:47:15Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Cross-Lingual Adaptation Using Universal Dependencies [1.027974860479791]
複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
論文 参考訳(メタデータ) (2020-03-24T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。