Fugu-MT 論文翻訳(概要): CEREC: A Corpus for Entity Resolution in Email Conversations

論文の概要: CEREC: A Corpus for Entity Resolution in Email Conversations

arxiv url: http://arxiv.org/abs/2105.10606v1
Date: Fri, 21 May 2021 23:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-27 10:58:38.922651
Title: CEREC: A Corpus for Entity Resolution in Email Conversations
Title（参考訳）: CEREC: メール会話におけるエンティティ解決のためのコーパス
Authors: Parag Pravin Dakle and Dan I. Moldovan
Abstract要約: メール会話におけるエンティティ解決のための最初の大規模コーパス(CEREC)を提案する。コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。生成したコーパス上の4つのベースラインの異なる特徴と性能を評価する実験を行った。
参考スコア（独自算出の注目度）: 1.7056768055368383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the first large scale corpus for entity resolution in email conversations (CEREC). The corpus consists of 6001 email threads from the Enron Email Corpus containing 36,448 email messages and 60,383 entity coreference chains. The annotation is carried out as a two-step process with minimal manual effort. Experiments are carried out for evaluating different features and performance of four baselines on the created corpus. For the task of mention identification and coreference resolution, a best performance of 60.08 F1 is reported, highlighting the room for improvement. An in-depth qualitative and quantitative error analysis is presented to understand the limitations of the baselines considered.
Abstract（参考訳）: メール会話(CEREC)におけるエンティティ解決のための最初の大規模コーパスを提示する。コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。アノテーションは、最小限の手動作業で、2段階のプロセスとして実行される。作成したコーパス上の4つのベースラインの特徴と性能を評価する実験を行った。参照識別とコア参照解決のタスクについては、60.08 F1の最高のパフォーマンスを報告し、改善の余地を強調している。考察したベースラインの限界を理解するために,詳細な質的量的誤り分析を行った。

関連論文リスト

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts [0.0]
SinhaLegalは1,206件の法的文書に約200万語を含むSinhala法定テキストコーパスを導入している。データセットには、1981年から2014年までの1,065件、2010年から2014年までの141件の法律文書が含まれている。テキストは、Google Document AIでOCRを使用して抽出され、続いて広範な後処理と手作業によるクリーニングにより、高品質でマシン可読なコンテンツが保証された。
論文参考訳（メタデータ） (2026-03-05T06:13:44Z)
Domain-Adaptive and Scalable Dense Retrieval for Content-Based Recommendation [0.0]
本稿では,Amazon Reviews 2023 (Fashion) サブセットを微調整した2-towerバイエンコーダをベースとした,スケーラブルな高密度検索システムを提案する。我々は、レビューテキスト(クエリプロキシとして)とアイテムメタデータ(ポジティブドキュメントとして)からトレーニングペアを構築し、500トークンの最大シーケンス長で50,000のサンプルインタラクションを微調整する。 826,402のカタログ項目に対するレビュー・ツー・タイトルのベンチマークでは、Recall@10が0.26(BM25)から0.66に改善されました。
論文参考訳（メタデータ） (2026-01-31T20:58:23Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
ClusterChat: Multi-Feature Search for Corpus Exploration [3.4123736336071864]
ClusterChatは、クラスタベースのドキュメント組織を統合するコーパス探索用のオープンソースのシステムである。我々は,400万の抽象PubMedデータセットを2つのケーススタディで検証した。
論文参考訳（メタデータ） (2024-12-19T05:11:16Z)
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language [4.077418516695122]
Faetarには標準的な正書法がなく、ベンチマークに含まれるもの以外のテキストや音声のリソースはほとんどない。コーパスはフィールド録音に由来するが、ほとんどはノイズがあり、5時間しか一致した書き起こしがない。我々は,現在最先端の多言語音声基礎モデルによる電話誤り率30.4%のベースライン結果について報告する。
論文参考訳（メタデータ） (2024-09-12T14:55:33Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
The ELITR ECA Corpus [5.248750132326314]
我々はBleualignとともに自動翻訳を使用して、506の翻訳方向の並列文対を同定する。結果は264k文書対と41.9M文対からなるコーパスである。
論文参考訳（メタデータ） (2021-09-15T15:03:27Z)
EmailSum: Abstractive Email Thread Summarization [105.46012304024312]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文参考訳（メタデータ） (2021-07-30T15:13:14Z)
An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文参考訳（メタデータ） (2021-04-30T19:46:24Z)
AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文参考訳（メタデータ） (2020-06-18T17:05:45Z)
A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。 635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文参考訳（メタデータ） (2020-05-28T13:03:51Z)
WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。 380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文参考訳（メタデータ） (2020-03-13T10:26:45Z)
The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文参考訳（メタデータ） (2019-12-30T21:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。