論文の概要: RuCoCo: a new Russian corpus with coreference annotation
- arxiv url: http://arxiv.org/abs/2206.04925v1
- Date: Fri, 10 Jun 2022 07:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:15:09.878335
- Title: RuCoCo: a new Russian corpus with coreference annotation
- Title(参考訳): RuCoCo:コア参照アノテーションを備えた新しいロシアのコーパス
- Authors: Vladimir Dobrovolskii, Mariia Michurina, Alexandra Ivoylova
- Abstract要約: 我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new corpus with coreference annotation, Russian Coreference
Corpus (RuCoCo). The goal of RuCoCo is to obtain a large number of annotated
texts while maintaining high inter-annotator agreement. RuCoCo contains news
texts in Russian, part of which were annotated from scratch, and for the rest
the machine-generated annotations were refined by human annotators. The size of
our corpus is one million words and around 150,000 mentions. We make the corpus
publicly available.
- Abstract(参考訳): 本稿では,ロシア共参照コーパス (rucoco) を用いた新しいコーパスを提案する。
RuCoCoの目標は、高いアノテーション間の合意を維持しながら、多数の注釈付きテキストを取得することである。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りの部分は人間のアノテーションによって改良された。
私たちのコーパスのサイズは100万語、約15万語です。
コーパスを公開しています。
関連論文リスト
- WikiNER-fr-gold: A Gold-Standard NER Corpus [1.7205106391379026]
WikiNERコーパス,多言語名前付きエンティティ認識コーパスの品質に対処し,その統合版を提供する。
本稿では,WikiNERのフランス語比率の改訂版であるWikiNER-fr-goldを提案する。
本稿では,WikiNER-frコーパスで観測された誤りと不整合の分析を行い,今後の仕事の方向性について考察する。
論文 参考訳(メタデータ) (2024-10-29T08:00:16Z) - The Russian Legislative Corpus [0.0]
コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。
コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。
論文 参考訳(メタデータ) (2024-06-07T11:38:12Z) - KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels [0.0]
KoCoNovel(ココノヴェル)は、韓国の文芸文から派生した新しい文字コアデータセットである。
KoCoNovelの特徴の1つは、すべての文字言及の24%が単一の共通名詞であることである。
論文 参考訳(メタデータ) (2024-04-01T14:36:35Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - A Part-of-Speech Tagger for Yiddish [4.57670708264108]
これは、音声タグと構文構造をYiddishテキストに自動的に割り当てる、より大きなプロジェクトの第一歩である。
現在の作業には2つのリソース – Penn Parsed Corpus of Historical Yiddish (PPCHY)の80Kワードサブセットと,Yiddish Book Center (YBC)のOCRのYiddishテキストの6億5000万ワード – が組み合わされている。
我々は、YBCで訓練された単純な非文脈的埋め込みでさえ、まずコーパスを「標準化」することなく、綴り変種間の関係を捉えることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T22:53:36Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。