論文の概要: Prague Dependency Treebank -- Consolidated 1.0
- arxiv url: http://arxiv.org/abs/2006.03679v1
- Date: Fri, 5 Jun 2020 20:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:53:26.249471
- Title: Prague Dependency Treebank -- Consolidated 1.0
- Title(参考訳): プラハ依存性ツリーバンク -- 統合1.0
- Authors: Jan Haji\v{c}, Eduard Bej\v{c}ek, Jaroslava Hlav\'a\v{c}ov\'a, Marie
Mikulov\'a, Milan Straka, Jan \v{S}t\v{e}p\'anek, Barbora
\v{S}t\v{e}p\'ankov\'a
- Abstract要約: Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
- 参考スコア(独自算出の注目度): 1.7147127043116672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a richly annotated and genre-diversified language resource, the
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0), the purpose of which
is - as it always been the case for the family of the Prague Dependency
Treebanks - to serve both as a training data for various types of NLP tasks as
well as for linguistically-oriented research. PDT-C 1.0 contains four different
datasets of Czech, uniformly annotated using the standard PDT scheme (albeit
not everything is annotated manually, as we describe in detail here). The texts
come from different sources: daily newspaper articles, Czech translation of the
Wall Street Journal, transcribed dialogs and a small amount of user-generated,
short, often non-standard language segments typed into a web translator.
Altogether, the treebank contains around 180,000 sentences with their
morphological, surface and deep syntactic annotation. The diversity of the
texts and annotations should serve well the NLP applications as well as it is
an invaluable resource for linguistic research, including comparative studies
regarding texts of different genres. The corpus is publicly and freely
available.
- Abstract(参考訳): 本稿では,プラハ依存関係ツリーバンク統合 1.0 (pdt-c 1.0) について,プラハ依存ツリーバンクの系統が常にそうであるように,様々なnlpタスクのトレーニングデータと言語指向研究のためのトレーニングデータとして機能することを目的とする。
PDT-C 1.0には、チェコの4つの異なるデータセットが含まれており、標準のPDTスキームで一様に注釈付けされている(詳細はこちら)。
テキストは、日刊の新聞記事、the wall street journalのチェコ語訳、書き起こされたダイアログ、少量のユーザー生成、短い、しばしば標準ではない言語セグメントなど、さまざまなソースから来ている。
木バンクには約180,000の文があり、その形態的、表面的、深い構文的アノテーションがある。
テキストとアノテーションの多様性は、異なるジャンルのテキストに関する比較研究を含む、言語研究の貴重な情報源であると同時に、NLPの応用にも役立てるべきである。
コーパスは公開され、自由に利用できる。
関連論文リスト
- X-PARADE: Cross-Lingual Textual Entailment and Information Divergence
across Paragraphs [62.71573787079949]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus [2.7036498789349244]
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
論文 参考訳(メタデータ) (2021-07-14T12:16:21Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Parsing Early Modern English for Linguistic Search [3.927039542429003]
我々は,NLPの進歩により,歴史的構文の研究に利用可能なデータサイズを大幅に拡大できるかどうかを考察する。
これにより、自動アノテーション付きコーパスによる言語クエリのサービスにおいて、NLPの一般的なツール – ワード埋め込み、タグ付け、パース – が数多く統合される。
我々は10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、POSタグと歴史的英語のコーパスをトレーニングする。
論文 参考訳(メタデータ) (2020-02-24T21:04:51Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。