論文の概要: RuCoCo: a new Russian corpus with coreference annotation
- arxiv url: http://arxiv.org/abs/2206.04925v1
- Date: Fri, 10 Jun 2022 07:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:15:09.878335
- Title: RuCoCo: a new Russian corpus with coreference annotation
- Title(参考訳): RuCoCo:コア参照アノテーションを備えた新しいロシアのコーパス
- Authors: Vladimir Dobrovolskii, Mariia Michurina, Alexandra Ivoylova
- Abstract要約: 我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new corpus with coreference annotation, Russian Coreference
Corpus (RuCoCo). The goal of RuCoCo is to obtain a large number of annotated
texts while maintaining high inter-annotator agreement. RuCoCo contains news
texts in Russian, part of which were annotated from scratch, and for the rest
the machine-generated annotations were refined by human annotators. The size of
our corpus is one million words and around 150,000 mentions. We make the corpus
publicly available.
- Abstract(参考訳): 本稿では,ロシア共参照コーパス (rucoco) を用いた新しいコーパスを提案する。
RuCoCoの目標は、高いアノテーション間の合意を維持しながら、多数の注釈付きテキストを取得することである。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りの部分は人間のアノテーションによって改良された。
私たちのコーパスのサイズは100万語、約15万語です。
コーパスを公開しています。
関連論文リスト
- A big data approach towards sarcasm detection in Russian [0.0]
本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。
これらのアルゴリズムは、公開のWebサービスwww.passare.ruで実装されている。
論文 参考訳(メタデータ) (2023-06-01T08:34:26Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - A Part-of-Speech Tagger for Yiddish [4.57670708264108]
これは、音声タグと構文構造をYiddishテキストに自動的に割り当てる、より大きなプロジェクトの第一歩である。
現在の作業には2つのリソース – Penn Parsed Corpus of Historical Yiddish (PPCHY)の80Kワードサブセットと,Yiddish Book Center (YBC)のOCRのYiddishテキストの6億5000万ワード – が組み合わされている。
我々は、YBCで訓練された単純な非文脈的埋め込みでさえ、まずコーパスを「標準化」することなく、綴り変種間の関係を捉えることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T22:53:36Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text
Normalization [9.140423191799423]
HinglishNormは、Hindi- English code-mixed sentencesの人間の注釈付きコーパスで、テキスト正規化タスクを行う。
We obtained a Word Error Rate (WER) of 15.55, biLingual Evaluation Understudy (BLEU) score of 71.2, and Metric for Evaluation of Translation with Explicit ordering (METEOR) score of 0.50。
論文 参考訳(メタデータ) (2020-10-18T12:21:37Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。