論文の概要: Prague Dependency Treebank -- Consolidated 1.0
- arxiv url: http://arxiv.org/abs/2006.03679v1
- Date: Fri, 5 Jun 2020 20:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:53:26.249471
- Title: Prague Dependency Treebank -- Consolidated 1.0
- Title(参考訳): プラハ依存性ツリーバンク -- 統合1.0
- Authors: Jan Haji\v{c}, Eduard Bej\v{c}ek, Jaroslava Hlav\'a\v{c}ov\'a, Marie
Mikulov\'a, Milan Straka, Jan \v{S}t\v{e}p\'anek, Barbora
\v{S}t\v{e}p\'ankov\'a
- Abstract要約: Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
- 参考スコア(独自算出の注目度): 1.7147127043116672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a richly annotated and genre-diversified language resource, the
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0), the purpose of which
is - as it always been the case for the family of the Prague Dependency
Treebanks - to serve both as a training data for various types of NLP tasks as
well as for linguistically-oriented research. PDT-C 1.0 contains four different
datasets of Czech, uniformly annotated using the standard PDT scheme (albeit
not everything is annotated manually, as we describe in detail here). The texts
come from different sources: daily newspaper articles, Czech translation of the
Wall Street Journal, transcribed dialogs and a small amount of user-generated,
short, often non-standard language segments typed into a web translator.
Altogether, the treebank contains around 180,000 sentences with their
morphological, surface and deep syntactic annotation. The diversity of the
texts and annotations should serve well the NLP applications as well as it is
an invaluable resource for linguistic research, including comparative studies
regarding texts of different genres. The corpus is publicly and freely
available.
- Abstract(参考訳): 本稿では,プラハ依存関係ツリーバンク統合 1.0 (pdt-c 1.0) について,プラハ依存ツリーバンクの系統が常にそうであるように,様々なnlpタスクのトレーニングデータと言語指向研究のためのトレーニングデータとして機能することを目的とする。
PDT-C 1.0には、チェコの4つの異なるデータセットが含まれており、標準のPDTスキームで一様に注釈付けされている(詳細はこちら)。
テキストは、日刊の新聞記事、the wall street journalのチェコ語訳、書き起こされたダイアログ、少量のユーザー生成、短い、しばしば標準ではない言語セグメントなど、さまざまなソースから来ている。
木バンクには約180,000の文があり、その形態的、表面的、深い構文的アノテーションがある。
テキストとアノテーションの多様性は、異なるジャンルのテキストに関する比較研究を含む、言語研究の貴重な情報源であると同時に、NLPの応用にも役立てるべきである。
コーパスは公開され、自由に利用できる。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus [2.7036498789349244]
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
論文 参考訳(メタデータ) (2021-07-14T12:16:21Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - Parsing Early Modern English for Linguistic Search [3.927039542429003]
我々は,NLPの進歩により,歴史的構文の研究に利用可能なデータサイズを大幅に拡大できるかどうかを考察する。
これにより、自動アノテーション付きコーパスによる言語クエリのサービスにおいて、NLPの一般的なツール – ワード埋め込み、タグ付け、パース – が数多く統合される。
我々は10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、POSタグと歴史的英語のコーパスをトレーニングする。
論文 参考訳(メタデータ) (2020-02-24T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。