論文の概要: WikiNER-fr-gold: A Gold-Standard NER Corpus
- arxiv url: http://arxiv.org/abs/2411.00030v1
- Date: Tue, 29 Oct 2024 08:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:28:23.822332
- Title: WikiNER-fr-gold: A Gold-Standard NER Corpus
- Title(参考訳): WikiNER-fr-gold:ゴールドブランドのNERコーパス
- Authors: Danrun Cao, Nicolas Béchet, Pierre-François Marteau,
- Abstract要約: WikiNERコーパス,多言語名前付きエンティティ認識コーパスの品質に対処し,その統合版を提供する。
本稿では,WikiNERのフランス語比率の改訂版であるWikiNER-fr-goldを提案する。
本稿では,WikiNER-frコーパスで観測された誤りと不整合の分析を行い,今後の仕事の方向性について考察する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License:
- Abstract: We address in this article the the quality of the WikiNER corpus, a multilingual Named Entity Recognition corpus, and provide a consolidated version of it. The annotation of WikiNER was produced in a semi-supervised manner i.e. no manual verification has been carried out a posteriori. Such corpus is called silver-standard. In this paper we propose WikiNER-fr-gold which is a revised version of the French proportion of WikiNER. Our corpus consists of randomly sampled 20% of the original French sub-corpus (26,818 sentences with 700k tokens). We start by summarizing the entity types included in each category in order to define an annotation guideline, and then we proceed to revise the corpus. Finally we present an analysis of errors and inconsistency observed in the WikiNER-fr corpus, and we discuss potential future work directions.
- Abstract(参考訳): 本稿では,多言語名称付きエンティティ認識コーパスであるWikiNERコーパスの品質について論じ,その統合版を提供する。
WikiNERのアノテーションは半教師付きの方法で作成されており、手動による検証は行われていない。
このようなコーパスを銀標準という。
本稿では,WikiNERのフランス語比率の改訂版であるWikiNER-fr-goldを提案する。
私たちのコーパスは、ランダムにサンプル化されたフランスのサブコーパス(600,818文と700kトークン)の20%で構成されています。
まず、アノテーションガイドラインを定義するために各カテゴリに含まれるエンティティタイプを要約し、その後、コーパスの修正を進めます。
最後に,WikiNER-frコーパスで観測された誤りと不整合の分析を行い,今後の仕事の方向性について考察する。
関連論文リスト
- Dialectal and Low Resource Machine Translation for Aromanian [44.99833362998488]
ルーマニア語、英語、ルーマニア語を翻訳できるニューラルマシン翻訳システムを提案する。
BLEUスコアはテキストの方向やジャンルによって17から32まで様々である。
Aromanian-Romanian-Romanian bilingual corpus は 79k 個の清潔な文対から構成される。
論文 参考訳(メタデータ) (2024-10-23T10:00:23Z) - People and Places of Historical Europe: Bootstrapping Annotation
Pipeline and a New Corpus of Named Entities in Late Medieval Texts [0.0]
我々はチェコ語、ラテン語、ドイツ語を中心に書かれた中世後期の憲章から3.6万文の新しいNERコーパスを開発する。
我々は、既知の歴史人物や場所のリストと、未注釈の歴史的テキストのコーパスから始めることができ、情報検索技術を用いて、NER注釈コーパスを自動的にブートストラップできることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:05:01Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文 参考訳(メタデータ) (2022-12-15T10:32:29Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT [1.2891210250935146]
Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
論文 参考訳(メタデータ) (2022-05-19T16:06:49Z) - Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged
Amharic Corpus [0.04915744683251149]
Amharic corpusは部分的にウェブコーパスである。
テキストは、異なるドメインから25,199の文書から収集される。
約2400万の正書法語がトークン化されている。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。