論文の概要: CEREC: A Corpus for Entity Resolution in Email Conversations
- arxiv url: http://arxiv.org/abs/2105.10606v1
- Date: Fri, 21 May 2021 23:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 10:58:38.922651
- Title: CEREC: A Corpus for Entity Resolution in Email Conversations
- Title(参考訳): CEREC: メール会話におけるエンティティ解決のためのコーパス
- Authors: Parag Pravin Dakle and Dan I. Moldovan
- Abstract要約: メール会話におけるエンティティ解決のための最初の大規模コーパス(CEREC)を提案する。
コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。
生成したコーパス上の4つのベースラインの異なる特徴と性能を評価する実験を行った。
- 参考スコア(独自算出の注目度): 1.7056768055368383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first large scale corpus for entity resolution in email
conversations (CEREC). The corpus consists of 6001 email threads from the Enron
Email Corpus containing 36,448 email messages and 60,383 entity coreference
chains. The annotation is carried out as a two-step process with minimal manual
effort. Experiments are carried out for evaluating different features and
performance of four baselines on the created corpus. For the task of mention
identification and coreference resolution, a best performance of 60.08 F1 is
reported, highlighting the room for improvement. An in-depth qualitative and
quantitative error analysis is presented to understand the limitations of the
baselines considered.
- Abstract(参考訳): メール会話(CEREC)におけるエンティティ解決のための最初の大規模コーパスを提示する。
コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。
アノテーションは、最小限の手動作業で、2段階のプロセスとして実行される。
作成したコーパス上の4つのベースラインの特徴と性能を評価する実験を行った。
参照識別とコア参照解決のタスクについては、60.08 F1の最高のパフォーマンスを報告し、改善の余地を強調している。
考察したベースラインの限界を理解するために,詳細な質的量的誤り分析を行った。
関連論文リスト
- The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language [4.077418516695122]
Faetarには標準的な正書法がなく、ベンチマークに含まれるもの以外のテキストや音声のリソースはほとんどない。
コーパスはフィールド録音に由来するが、ほとんどはノイズがあり、5時間しか一致した書き起こしがない。
我々は,現在最先端の多言語音声基礎モデルによる電話誤り率30.4%のベースライン結果について報告する。
論文 参考訳(メタデータ) (2024-09-12T14:55:33Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - The ELITR ECA Corpus [5.248750132326314]
我々はBleualignとともに自動翻訳を使用して、506の翻訳方向の並列文対を同定する。
結果は264k文書対と41.9M文対からなるコーパスである。
論文 参考訳(メタデータ) (2021-09-15T15:03:27Z) - EmailSum: Abstractive Email Thread Summarization [105.46012304024312]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。
このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。
本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文 参考訳(メタデータ) (2021-07-30T15:13:14Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。