論文の概要: Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito"
- arxiv url: http://arxiv.org/abs/2201.09997v1
- Date: Mon, 24 Jan 2022 23:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 09:12:12.058576
- Title: Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito"
- Title(参考訳): Razmecheno:「Prozhito」のデジタルアーカイブから名付けられたエンティティ認識
- Authors: Timofey Atnashev, Veronika Ganeeva, Roman Kazakov, Daria Matyash,
Michael Sonkin, Ekaterina Voloshina, Oleg Serikov, Ekaterina Artemova
- Abstract要約: 本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
- 参考スコア(独自算出の注目度): 1.4823641127537543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast majority of existing datasets for Named Entity Recognition (NER) are
built primarily on news, research papers and Wikipedia with a few exceptions,
created from historical and literary texts. What is more, English is the main
source for data for further labelling. This paper aims to fill in multiple gaps
by creating a novel dataset "Razmecheno", gathered from the diary texts of the
project "Prozhito" in Russian. Our dataset is of interest for multiple research
lines: literary studies of diary texts, transfer learning from other domains,
low-resource or cross-lingual named entity recognition. Razmecheno comprises
1331 sentences and 14119 tokens, sampled from diaries, written during the
Perestroika. The annotation schema consists of five commonly used entity tags:
person, characteristics, location, organisation, and facility. The labelling is
carried out on the crowdsourcing platfrom Yandex.Toloka in two stages. First,
workers selected sentences, which contain an entity of particular type. Second,
they marked up entity spans. As a result 1113 entities were obtained. Empirical
evaluation of Razmecheno is carried out with off-the-shelf NER tools and by
fine-tuning pre-trained contextualized encoders. We release the annotated
dataset for open access.
- Abstract(参考訳): 名前付きエンティティ認識(NER)のための既存のデータセットの大部分は、主にニュース、研究論文、ウィキペディアに基づいて構築されており、いくつかの例外は歴史的および文学的なテキストから作成されている。
さらに、さらなるラベル付けのためのデータの主なソースは英語である。
本稿は,ロシア語プロジェクト「prozhito」の日記テキストから収集した新しいデータセット「razmecheno」を作成することで,複数のギャップを埋めることを目的とする。
我々のデータセットは、日記テキストの文学研究、他ドメインからの転帰学習、低リソースまたは多言語対応のエンティティ認識など、複数の研究分野に注目されている。
ラズメチェノはペレストロイカで書かれた1331の文と14119のトークンからなる。
アノテーションスキーマは、人、特徴、場所、組織、施設の5つの一般的なエンティティタグで構成されている。
このラベル付けはYandex.Tolokaのクラウドソーシングで2段階に分けて行われる。
まず、労働者は特定のタイプの実体を含む文章を選択した。
第2に、エンティティスパンをマークする。
その結果、1113の実体が得られた。
razmechenoの実験的評価は、市販のnerツールと、事前学習されたコンテクスト化されたエンコーダの微調整によって行われる。
オープンアクセスのためのアノテーション付きデータセットをリリースします。
関連論文リスト
- Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain [1.209268134212644]
AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
論文 参考訳(メタデータ) (2023-07-05T14:55:18Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。