論文の概要: CEREC: A Corpus for Entity Resolution in Email Conversations
- arxiv url: http://arxiv.org/abs/2105.10606v1
- Date: Fri, 21 May 2021 23:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 10:58:38.922651
- Title: CEREC: A Corpus for Entity Resolution in Email Conversations
- Title(参考訳): CEREC: メール会話におけるエンティティ解決のためのコーパス
- Authors: Parag Pravin Dakle and Dan I. Moldovan
- Abstract要約: メール会話におけるエンティティ解決のための最初の大規模コーパス(CEREC)を提案する。
コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。
生成したコーパス上の4つのベースラインの異なる特徴と性能を評価する実験を行った。
- 参考スコア(独自算出の注目度): 1.7056768055368383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first large scale corpus for entity resolution in email
conversations (CEREC). The corpus consists of 6001 email threads from the Enron
Email Corpus containing 36,448 email messages and 60,383 entity coreference
chains. The annotation is carried out as a two-step process with minimal manual
effort. Experiments are carried out for evaluating different features and
performance of four baselines on the created corpus. For the task of mention
identification and coreference resolution, a best performance of 60.08 F1 is
reported, highlighting the room for improvement. An in-depth qualitative and
quantitative error analysis is presented to understand the limitations of the
baselines considered.
- Abstract(参考訳): メール会話(CEREC)におけるエンティティ解決のための最初の大規模コーパスを提示する。
コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。
アノテーションは、最小限の手動作業で、2段階のプロセスとして実行される。
作成したコーパス上の4つのベースラインの特徴と性能を評価する実験を行った。
参照識別とコア参照解決のタスクについては、60.08 F1の最高のパフォーマンスを報告し、改善の余地を強調している。
考察したベースラインの限界を理解するために,詳細な質的量的誤り分析を行った。
関連論文リスト
- What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - The ELITR ECA Corpus [5.248750132326314]
我々はBleualignとともに自動翻訳を使用して、506の翻訳方向の並列文対を同定する。
結果は264k文書対と41.9M文対からなるコーパスである。
論文 参考訳(メタデータ) (2021-09-15T15:03:27Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - EmailSum: Abstractive Email Thread Summarization [105.46012304024312]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。
このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。
本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文 参考訳(メタデータ) (2021-07-30T15:13:14Z) - Persian Causality Corpus (PerCause) and the Causality Detection
Benchmark [0.0]
我々はペルシャ語のための因果的人間注釈コーパスを準備している。
このコーパスは4446の文と5128の因果関係からなる。
我々はこのコーパスを用いて因果要素境界を検出するシステムの訓練を行っている。
論文 参考訳(メタデータ) (2021-06-27T07:54:48Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。