論文の概要: The Annotation Guideline of LST20 Corpus
- arxiv url: http://arxiv.org/abs/2008.05055v1
- Date: Wed, 12 Aug 2020 01:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:11:25.858011
- Title: The Annotation Guideline of LST20 Corpus
- Title(参考訳): LST20コーパスの注釈ガイドライン
- Authors: Prachya Boonkwan and Vorapon Luantangsrisuk and Sitthaa Phaholphinyo
and Kanyanat Kriengket and Dhanon Leenoi and Charun Phrombut and Monthika
Boriboon and Krit Kosawat and Thepchai Supnithi
- Abstract要約: データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
- 参考スコア(独自算出の注目度): 0.3161954199291541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the annotation guideline for LST20, a large-scale corpus
with multiple layers of linguistic annotation for Thai language processing. Our
guideline consists of five layers of linguistic annotation: word segmentation,
POS tagging, named entities, clause boundaries, and sentence boundaries. The
dataset complies to the CoNLL-2003-style format for ease of use. LST20 Corpus
offers five layers of linguistic annotation as aforementioned. At a large
scale, it consists of 3,164,864 words, 288,020 named entities, 248,962 clauses,
and 74,180 sentences, while it is annotated with 16 distinct POS tags. All
3,745 documents are also annotated with 15 news genres. Regarding its sheer
size, this dataset is considered large enough for developing joint neural
models for NLP. With the existence of this publicly available corpus, Thai has
become a linguistically rich language for the first time.
- Abstract(参考訳): 本稿では,タイ語処理のための多層言語アノテーションを備えた大規模コーパスであるLST20のアノテーションガイドラインを提案する。
私たちのガイドラインは、単語分割、posタグ付け、名前付きエンティティ、節境界、文境界という5つの言語アノテーションからなる。
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
LST20 Corpusは前述の5つの言語アノテーションを提供している。
大規模には3,164,864ワード、288,020名前付きエンティティ、248,962節、74,180文で構成され、16の異なるposタグで注釈されている。
3,745の文書には15のニュースジャンルが付記されている。
その大きさに関しては、このデータセットはNLPのジョイントニューラルモデルを開発するのに十分な大きさであると考えられている。
この公に入手可能なコーパスの存在により、タイ語は初めて言語的に豊かな言語となった。
関連論文リスト
- Cross-lingual Named Entity Corpus for Slavic Languages [1.8693484642696736]
この作業は、スラヴ自然言語処理ワークショップの一部として2017-2023年に行われた一連の共有タスクの結果である。
コーパスは、7つのトピックに関する5つの017文書から構成されており、その文書には5つの名前付きエンティティのクラスが注釈付けされている。
論文 参考訳(メタデータ) (2024-03-30T22:20:08Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文 参考訳(メタデータ) (2021-04-25T13:05:29Z) - Prague Dependency Treebank -- Consolidated 1.0 [1.7147127043116672]
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
論文 参考訳(メタデータ) (2020-06-05T20:52:55Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。