論文の概要、ライセンス

# (参考訳) クロスドキュメント参照解決のための現実的評価原理 [全文訳有]

Realistic Evaluation Principles for Cross-document Coreference Resolution ( http://arxiv.org/abs/2106.04192v1 )

ライセンス: CC BY 4.0
Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, Ido Dagan(参考訳) クロスドキュメントのコリファレンス解決に対する一般的な評価プラクティスは,想定された設定では非現実的な許容範囲であり,その結果が膨らんでいることを指摘した。 2つの評価方法論を通じてこの問題に対処することを提案する。 第一に、他のタスクと同様に、モデルは金の言及ではなく予測された言及に基づいて評価されるべきである。 これによってシングルトンコリファレンスクラスタに関する微妙な問題が発生し、コリファレンスリンクから参照検出の評価を分離することで対処します。 第二に、モデルが標準のECB+データセットの合成トピック構造を活用すべきではなく、データセット作成者が意図したような語彙的あいまいさに直面することを強いる。 我々は、競争モデルに対するより現実的な評価原理の劇的な影響を実証的に示し、先行的な評価よりも33 f1低いスコアを得る。

We point out that common evaluation practices for cross-document coreference resolution have been unrealistically permissive in their assumed settings, yielding inflated results. We propose addressing this issue via two evaluation methodology principles. First, as in other tasks, models should be evaluated on predicted mentions rather than on gold mentions. Doing this raises a subtle issue regarding singleton coreference clusters, which we address by decoupling the evaluation of mention detection from that of coreference linking. Second, we argue that models should not exploit the synthetic topic structure of the standard ECB+ dataset, forcing models to confront the lexical ambiguity challenge, as intended by the dataset creators. We demonstrate empirically the drastic impact of our more realistic evaluation principles on a competitive model, yielding a score which is 33 F1 lower compared to evaluating by prior lenient practices.
公開日: Tue, 8 Jun 2021 09:05:21 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
for Cross-document Coreference Resolution Arie Cattan1 Alon Eirew1,2 Gabriel Stanovsky3 Mandar Joshi4 Arie Cattan1 Alon Eirew1,2 Gabriel Stanovsky3 Mandar Joshi4 0.73
Realistic Evaluation Principles Ido Dagan1 現実的な評価原理 いどだがん1 0.45
1Computer Science Department, Bar Ilan University バー・アイラン大学1コンピュータ科学科 0.72
2Intel Labs, Israel イスラエルの2Intel Labs 0.86
3The Hebrew University of Jerusalem 3 エルサレム・ヘブライ大学 0.66
4Allen School of Computer Science & Engineering, University of Washington, Seattle, WA 4Allen School of Computer Science & Engineering, University of Washington, Seattle, WA 0.90
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 9 1 4 0 1 v 2 9 1 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
arie.cattan@gmail.co m arie.cattan@gmail.co m 0.59
alon.eirew@intel.com alon.eirew@intel.com 0.59
gabis@cse.huji.ac.il gabis@cse.huji.ac.il 0.47
mandar90@cs.washingt on.edu mandar90@cs.washingt on.edu 0.52
dagan@cs.biu.ac.il dagan@cs.biu.ac.il 0.47
Abstract We point out that common evaluation practices for cross-document coreference resolution have been unrealistically permissive in their assumed settings, yielding inflated results. 概要 クロスドキュメントのコリファレンス解決に対する一般的な評価プラクティスは,想定された設定では非現実的な許容範囲であり,その結果が膨らんでいることを指摘した。 0.47
We propose addressing this issue via two evaluation methodology principles. 2つの評価方法論を通じてこの問題に対処することを提案する。 0.51
First, as in other tasks, models should be evaluated on predicted mentions rather than on gold mentions. 第一に、他のタスクと同様に、モデルは金の言及ではなく予測された言及に基づいて評価されるべきである。 0.51
Doing this raises a subtle issue regarding singleton coreference clusters, which we address by decoupling the evaluation of mention detection from that of coreference linking. これによってシングルトンコリファレンスクラスタに関する微妙な問題が発生し、コリファレンスリンクから参照検出の評価を分離することで対処します。
訳抜け防止モード: これを行う シングルトンコア参照クラスタに関する 微妙な問題を引き起こします 我々はコア参照リンクから参照検出の評価を分離することで対処する。
0.70
Second, we argue that models should not exploit the synthetic topic structure of the standard ECB+ dataset, forcing models to confront the lexical ambiguity challenge, as intended by the dataset creators. 第二に、モデルが標準のECB+データセットの合成トピック構造を活用すべきではなく、データセット作成者が意図したような語彙的あいまいさに直面することを強いる。 0.67
We demonstrate empirically the drastic impact of our more realistic evaluation principles on a competitive model, yielding a score which is 33 F1 lower compared to evaluating by prior lenient practices.1 我々は、競争モデルに対するより現実的な評価原理の劇的な影響を実証し、先行的なレネンエント・プラクティスによる評価よりも33 f1低いスコアを得る。 0.74
1 Introduction Cross-document (CD) coreference resolution identifies and links textual mentions that refer to the same entity or event across multiple documents. 1 はじめに cross-document (cd) coreference resolutionは、複数のドキュメントにまたがる同じエンティティやイベントを参照するテキスト参照を識別し、リンクする。 0.70
For example, Table 1 depicts different news stories involving former U.S. president Barack Obama. 例えば、Table 1はバラク・オバマ元大統領に関する様々なニュースを描いている。 0.73
While subsuming the challenges of withindocument (WD) coreference, CD coreference introduces additional unique challenges. intradocument (wd) のコリファレンスの課題を補う一方で、cd coreferenceにはさらにユニークな課題がある。 0.47
Most notably, lexical similarity is often not a good indicator when identifying cross-document links, as documents are authored independently. 特に、語彙的類似性は、文書が独立して作成されるため、文書間リンクを識別する際の良い指標ではないことが多い。 0.56
As shown in Table 1, the same event can be referenced using different expressions (“nominated”, “approached”), while two different events can be referenced using the same expression (“name”). 表1に示すように、同じイベントは異なる式(“nominated”, “approached”)を使って参照することができ、一方、2つの異なるイベントは同じ式(“name”)を使って参照することができる。 0.83
Despite these challenges, reported state-of-the-art results on the これらの課題にもかかわらず、最新の結果が報告された。 0.32
1https://github.com/ ariecattan/coref 1https://github.com/ ariecattan/coref 0.36
Subtopic 1 Doc 1: News that Barack Obama may name Dr. Sanjay Gupta of Emory University and CNN as his Surgeon... Doc 2: CNN’s management confirmed yesterday that Dr. Gupta had been approached by the Obama team. サブトピック1 doc 1: obamaがエモリー大学とcnnのsanjay gupta博士を外科医に指名するかもしれないというニュース...doc 2:cnnの経営陣は昨日、gupta博士がオバマ氏から接近したことを確認した。 0.70
Subtopic 2 Doc 3: President Obama will name Dr. Regina Benjamin as Surgeon General in a Rose Garden announcement... Doc 4: Obama nominates new surgeon general: genius grant fellow Dr. Benjamin. サブトピック2 ドク3: オバマ大統領はローズガーデンの発表でレジーナ・ベンジャミン博士を軍医総監に指名する...ドク4: オバマは新たな外科医総長を指名する。 0.66
He emphasizes his decision.. 彼は自分の決断を強調する。 0.53
Table 1: Example of sentences of from the ECB+. 表1:ecb+からの文の例。 0.67
The underlined words represent events, same color represents a coreference cluster. 下位の単語はイベントを表し、同じ色はコア参照クラスタを表す。 0.70
Different documents describe the same event using different words (e.g name, approached), while the two predicates “name” in the two subtopics are not coreferring. 異なる文書では、同じ出来事を異なる単語(例:名前、接近)で記述しているが、2つのサブトピックの“名前”はcoreferringではない。 0.75
popular CD coreference ECB+ benchmark (Cybulska and Vossen, 2014) are relatively high, reaching up to 80 F1 (Barhom et al , 2019; Meged et al , 2020). 人気のCDコアベンチマーク ECB+ベンチマーク(Cybulska、Vossen、2014)は比較的高く、80F1に達する(Barhom et al , 2019; Meged et al , 2020)。 0.74
In this paper, we show that CD coreference models achieve these numbers using overly-permissive evaluation protocols, namely assuming gold entity and event mentions are given, rewarding singletons and bypassing the lexical ambiguity challenge. 本稿では,CDコア参照モデルが,ゴールドエンティティやイベント参照を仮定した過剰許容評価プロトコルを用いて,シングルトンに報酬を与え,語彙的曖昧さを回避してこれらの数値を実現することを示す。 0.65
Accordingly, we present more realistic evaluation principles which better reflect model performance in real-world scenarios. そこで本研究では,現実シナリオにおけるモデル性能をよりよく反映した,より現実的な評価原理を提案する。 0.56
First, following well established standards in WD coreference resolution (Pradhan et al , 2012), we propose that CD coreference models should be also evaluated on predicted mentions. まず、wd coreference resolution (pradhan et al, 2012) の確立された標準に従って、予測された言及に基づいてcd coreferenceモデルを評価することを提案する。 0.68
While recent models unrealistically assume that event mentions are given as part of the input, practical application on new texts and domains requires performing coreference on raw text, including automatic mention detection. 最近のモデルは、イベントへの言及が入力の一部として与えられていると非現実的に仮定しているが、新しいテキストやドメインへの実用的な応用には、自動参照検出を含む生のテキストでコリファレンスを実行する必要がある。
訳抜け防止モード: 最近のモデルは、イベントへの言及が入力の一部として与えられると非現実的に仮定している。 新しいテキストとドメインに求められる実践的応用 自動参照検出を含む、生のテキストでコリファレンスを実行する。
0.59
Using predicted mentions raises a subtle point with regards to singletons (entities which are only referenced once). 予測された言及を使うことはシングルトン(一度だけ参照されるもの)に関して微妙な点をもたらす。 0.62
In particular, we 特に私たちは 0.76
英語(論文から抽出)日本語訳スコア
observe that ECB+’s inclusion of singletons inaccurately rewards models for predicting them, by conflating the evaluation of mention identification with that of coreference detection. ECB+のシングルトンの導入は、参照識別の評価とコア基準検出の評価を混同することにより、予測モデルに不正確な報酬を与える。 0.69
To address this, we propose reporting of singleton identification performance in a separate metric, while reporting coreference results without singletons. そこで本研究では,シングルトン識別性能を別々に報告するとともに,シングルトンを伴わずにコリファレンス結果の報告を行う。 0.66
Second, we find that ECB+ does not accurately reflect real-world scenarios where prominent events can be referenced in documents spanning different subjects and domains. 第2に、ECB+は、異なる主題やドメインにまたがる文書で顕著なイベントを参照できる現実世界のシナリオを正確に反映していない。 0.64
To facilitate its annotation, ECB+ mimics this phenomenon by artificially grouping documents dealing with the same event (e g , the nomination of Sanjay Gupta in Table 1) into a subtopic, and further groups two similar subtopics into a larger topic document group (e g , different nominations of government officials in Table 1). ecb+は、同じ出来事を扱う文書(例えば、表1におけるサンジェイ・グプタの指名)をサブトピックに人工的にグループ化し、さらに2つの類似のサブトピックをより大きなトピック文書グループ(表1における政府関係者の異なる指名など)にグループ化して、この現象を模倣する。 0.76
We observe that recent works exploit ECB+’s artificially simplistic structure by practically running the coreference model at the subtopic level, thus sidestepping a major lexical ambiguity challenge (e g , mentions of “nomination” across subtopics do not co-refer). 最近の研究は、ECB+の人工的に単純化された構造を利用して、コア参照モデルを事実上サブトピーレベルで実行し、主要な語彙的曖昧性の課題(例えば、サブトピー間の「命名」は共参照しない)をサイドステッピングしている。 0.58
In contrast, in realworld scenarios such clustering is much harder to perform and is often not as easily delineated. 対照的に、現実のシナリオでは、そのようなクラスタリングは実行がずっと難しく、多くの場合、記述が容易ではない。 0.53
For example, Barack Obama and events from his presidency can be referenced in news, literature, sport reports, and more. 例えば、バラク・オバマや大統領就任時の出来事は、ニュース、文学、スポーツレポートなどに参照することができる。 0.75
To address this, we propose that models report performance also at the topic level. そこで我々は,モデルがトピックレベルでも性能を報告できることを提案する。 0.74
Finally, we show empirically that both of these evaluation practices artificially inflate results. 最後に,これら2つの評価プラクティスが人工的に結果に影響を及ぼすことを実証的に示す。 0.54
An end-to end model that outperforms state-of-the-art results on previous evaluation settings drops by 33 F1 points when using our proposed evaluation scheme, pointing at weaknesses that future modelling work could explore. 提案手法を用いた評価では,先行評価条件における最先端結果を上回り,33f1ポイント低下し,今後のモデリング作業が探究できる弱点を指摘した。 0.82
2 Background In this work, we will examine the evaluation of CD coreference on the popular ECB+ corpus (Cybulska and Vossen, 2014), constructed as an augmentation of the EECB and ECB datasets (Lee et al , 2012; Bejan and Harabagiu, 2010). 背景 本研究は、EECBとECBのデータセット(Lee et al, 2012; Bejan and Harabagiu, 2010)の拡張として構築された人気のECB+コーパス(Cybulska and Vossen, 2014)におけるCDコア参照の評価について検討する。 0.59
As exemplified in Table 1, ECB+ groups its annotated documents into subtopics, consisting of different reports of the same real-world event (e g , the nomination of Sanjay Gupta), and topics, which in turn consist of two lexically similar subtopics. 表1で例示されているように、ECB+は注釈付き文書を、同じ現実世界の出来事(例えば、サンジェイ・グプタの指名)の様々な報告と、2つの語彙的に類似したサブトピックからなるサブトピックに分類する。 0.72
Full ECB+ details are presented in Appendix A. ECB+の詳細はAppendix Aに記載されている。 0.65
The ECB+ evaluation protocol largely follows that of CoNLL-2012, perhaps the most popular ecb+評価プロトコルは、恐らく最も人気のあるconll-2012のそれに従う 0.76
WD benchmark (Pradhan et al , 2012), with two major distinctions. WDベンチマーク(Pradhan et al , 2012)には2つの大きな違いがある。 0.71
First, barring a few notable exceptions (Yang et al , 2015; Choubey and Huang, 2017),2 most recent CD models have unrealistically assumed that gold entity and event mentions are given as part of the input, reducing the task to finding coreference links between gold mentions (Bejan and Harabagiu, 2014; Cybulska and Vossen, 2015; Kenyon-Dean et al , 2018; Barhom et al , 2019; Meged et al , 2020). まず、いくつかの注目すべき例外(Yang et al , 2015; Choubey and Huang, 2017)を禁止し、最近の2つのCDモデルは、入力の一部として金の実体とイベントの言及が与えられていると非現実的に仮定し、金の言及(Bejan and Harabagiu, 2014; Cybulska and Vossen, 2015; Kenyon-Dean et al , 2018; Barhom et al , 2019; Meged et al , 2020)のコア参照リンクを見つけるタスクを減らす。 0.79
Second, while singletons are omitted on CoNLL-2012, they are exhaustively annotated in ECB+. 第2に、シングルトンはCoNLL-2012で省略されるが、ECB+で完全に注釈付けされている。 0.51
In the following section, we present a more realistic evaluation framework for CD coreference, taking into account the interacting distinctions of ECB+. 以下の節では、ECB+の相互作用を考慮したCDコアのより現実的な評価フレームワークについて述べる。 0.73
3 Realistic Evaluation Principles 3 現実的な評価原理 0.74
In this paper, we suggest that CD coreference models should perform and be evaluated on predicted mentions. 本稿では,cdコリファレンスモデルが実行され,予測された言及に基づいて評価されるべきことを提案する。 0.67
To achieve this, in Section 3.1, we will introduce the singleton effect on coreference evaluation and propose to decouple the evaluation of mention prediction from coreference resolution. これを実現するため、第3.1節では、コリファレンス評価におけるシングルトン効果を紹介し、言及予測の評価をコリファレンス解像度と分離する提案を行う。 0.62
In Section 3.2, we will establish guidelines allowing to better assess how models handle the ubiquitous lexical ambiguity challenge in real-world scenarios. 第3章2では、現実のシナリオにおいて、モデルがユビキタスな語彙の曖昧さをどう扱うかをよりよく評価するためのガイドラインを定めます。 0.45
3.1 Decoupling Coreference Evaluation 3.1 Decoupling Coreference Evaluation 0.84
Our goal is to propose a more reliable evaluation methodology of a coreference system over predicted mentions when singletons are included. 本研究の目的は,シングルトンを含む場合の予測参照よりも,コリファレンスシステムのより信頼性の高い評価手法を提案することである。 0.63
We use an example to show that evaluating singleton prediction with standard coreference metrics (B3, CEAF, LEA) could lead to counterproductive results which are hard to interpret (henceforth, we refer to this phenomenon as the singleton effect). 本稿では,標準コア基準指標(B3,CEAF,LEA)を用いてシングルトン予測を評価することで,解釈が難しい反生産的結果が得られることを示す(したがって,この現象をシングルトン効果と呼ぶ)。 0.81
Assume G denotes the gold clusters for Table 1 (for brevity, we omit some mentions), and S1 and S2 denote the output of two systems, which differ in their mention detection and coreference link performance:3 Assume G はテーブル 1 の金のクラスタを表し、S1 と S2 は2つのシステムの出力を表し、その参照検出とコア参照リンク性能が異なる。
訳抜け防止モード: g が表 1 のゴールドクラスターを表すと仮定する(略して、いくつかの言及を省略する)。 s1 と s2 は2つのシステムの出力を表します 参照検出と参照リンク性能の違い:3
0.76
2However, as noted in (Barhom et al , 2019), they consider only the intersection between gold and predicted mentions, not penalizing models for false positive mention identification. しかしながら、(Barhom et al , 2019)では、金と予測される言及の交点のみを考慮し、偽陽性の言及識別のためのモデルを罰するものではない。 0.66
3This follows the natural distribution of singletons (about 3 これはシングルトンの自然分布に従う(約) 0.82
50%), as illustrated in PreCo (Chen et al , 2018). 50%),PreCo (Chen et al , 2018。 0.39
英語(論文から抽出)日本語訳スコア
CoNLL-2012 CoNLL-2012 0.59
S1 S2 With Singletons S1 S2 S1 S2:シングルトンS1 S2 0.67
MUC 75.0 85.7 75.0 85.7 MUC 75.0 85.7 75.0 85.7 0.50
B3 53.1 83.9 77.6 59.2 B3 53.1 83.9 77.6 59.2 0.47
CEAFe LEA CoNLL CEAFe LeEA CoNLL 0.79
44.4 90.0 77.8 32.7 44.4 90.0 77.8 32.7 0.45
42.1 80.0 69.0 50.0 42.1 80.0 69.0 50.0 0.45
57.5 86.5 76.8 59.2 57.5 86.5 76.8 59.2 0.45
Table 2: Coreference results of S1 and S2 with (1) the standard CoNLL-2012 evaluation, where S2 does better and (2) when including singletons, where S1 does better. 表2: s1 と s2 のコリファレンス結果 (1) 標準 conll-2012 の評価、そこでは s2 がより良く、(2) がシングルトンを含む場合、s1 の方がよい。
訳抜け防止モード: 表2:(1)標準CoNLL-2012評価によるS1とS2の相関結果 シングルトンを含む場合、S2は、(2 )、S1は、より良い。
0.78
S2 predicts the coreference links better than S1 but S1 achieves higher results in (2) because S1 performs better the mention detection task. s2 は s1 よりもコリファレンスリンクを予測しているが、s1 は参照検出タスクが優れているため (2) より高い結果が得られる。
訳抜け防止モード: S2はS1よりもコア参照リンクが優れていると予測する しかし S1 は (2 ) でより高い結果を得る。
0.83
G {News}, S1 G { News} S1 0.70
S2 {Emory University}, S2 エモリー大学(emory university) 0.71
{confirmed}, {yesterday}, {announcement}, {name, approached}, {names, nominates, decision} {News}, {confirmed}, {yesterday}, {announcement, name, approached, names, nominates, decision} {News that}, {Emory}, {announcement, name, approached}, {names, nominates, decision} {confirmed}, {yesterday}, {announcement}, {announcement}, {name, approached}, {names, nominates, decision} {news}, {confirmed}, {yesterday}, {announcement, name, approached, name, nominates, decision} {news that}, {emory}, {announcement, name, approached}, {names, nominates, decision}, {names, nominates, decision} 0.83
{Emory University}, エモリー大学(emory university) 0.63
S1 identified the mentions of the singleton clusters while S2 missed them and predicted incorrect span boundaries for the two first mentions (“News that” and “Emory”). S1はシングルトンクラスタの言及を特定し、S2はそれらを見逃し、2つの最初の言及("News that" と "Emory")の誤ったスパン境界を予測した。 0.74
Both S1 and S2 erroneously merged the singleton mention “announcement” with the cluster {name, approached}; however, S1 further included these mentions with the lexically-similar cluster {names, nominates, decision}, whereas S2 successfully separated them. S1 と S2 はどちらも誤って "announcement" をクラスタ {name, approached} にマージしたが、S1 はさらにこれらを語彙的に類似したクラスタ {names, nominates, decision} に含めた。 0.81
In other words, S1 performs well on the mention detection task, but worse on the coreference linking, and S2 did the opposite. 言い換えれば、S1は参照検出タスクではうまく機能するが、コア参照リンクでは悪く、S2は反対だった。 0.75
Table 2 shows the results of S1 and S2 according to (1) the common CoNLL-2012 evaluation, where only non-singleton clusters are evaluated, and (2) using coreference metrics also on singleton prediction. 表2は、(1)非シングルトンクラスタのみを評価する一般的なconll-2012評価、(2)シングルトン予測におけるコリファレンスメトリクスを用いたs1およびs2の結果を示す。 0.84
With respect to (1), S2 achieves higher results according to all evaluation metrics. 1)に関して、S2は全ての評価基準に従って高い結果を得る。 0.67
In (2), we see the opposite, the results of S1 are significantly higher than S2 w.r.t B3 (+18.4), CEAF-e (+45.1), and LEA (+19), but not w.r.t MUC, a link-based metric. 2) では、S1 の結果は S2 w.r.t B3 (+18.4), CEAF-e (+45.1), LEA (+19) よりも著しく高いが、リンクベースの計量である w.r.t MUC にはならない。 0.75
Indeed, these evaluation metrics reward S1 in both recall and precision for all predicted singletons, while penalizing S2 for the wrong and missing singleton spans. 実際、これらの評価指標は、すべての予測シングルトンに対して、リコールと精度の両方でS1を報いる一方で、間違ったシングルトンスパンに対してS2を罰する。
訳抜け防止モード: 実際、これらの評価指標は、予測シングルトンのリコールと精度の両方でS1に報いる。 間違ったシングルトンのためにS2をペナルティ化する。
0.70
Since singletons are abundant in natural text, they contribute greatly to the overall score. シングルトンは自然のテキストに豊富であるため、全体のスコアに大きく寄与する。 0.68
However, as observed by Rahman and Ng (2009), a model’s ability to identify that these singletons do not belong to any coreference cluster is already captured in the evaluation metrics, and additional penalty is not desired. しかしながら、rahman と ng (2009) が観察したように、これらのシングルトンが任意のコリファレンスクラスタに属していないことを識別するモデルの能力は、既に評価メトリクスに記録されており、追加のペナルティは望まない。 0.70
In Appendix B, we introduce the aforementioned evaluation metrics for coreference resolution (MUC, B3, CEAF Appendix Bでは、上記のコア参照解決のための評価指標(MUC、B3、CEAF)を紹介する。 0.58
and LEA) and explain how singletons affect them. そして、シングルトンがどのように影響するかを説明します。 0.48
To address the singleton effect, we suggest decoupling the evaluation of the two coreference substasks, mention detection and coreference linking, allowing to better analyze coreference results and to compare systems more appropriately.4 シングルトン効果に対処するため、2つのコア参照サブスタックの評価を分離し、検出とコア参照リンクに言及し、コア参照結果をよりよく分析し、より適切にシステムを比較することを提案する。
訳抜け防止モード: シングルトン効果に対処する。 2つのコア参照サブスタックの評価を分離することを提案する。 コア推論の結果をよりよく分析し、システムをより適切に比較できるようにする.4
0.66
Mention detection is typically a span detection task and should be evaluated using standard span metrics on all detected mentions, including singletons. メンション検出は一般的にスパン検出タスクであり、シングルトンを含む検出されたすべての参照に対して標準スパンメトリクスを使用して評価されるべきである。 0.55
In particular, we use the span F1 metric and consider a predicted mention as correct if it has an exact match with a gold mention, as common in named entity recognition (Tjong Kim Sang and De Meulder, 2003). 特に、span f1メトリックを使用し、命名されたエンティティ認識(tjong kim sang and de meulder, 2003)でよく見られるように、それが金の言及と正確に一致する場合、予測された言及が正しいと考える。 0.70
Using such evaluation in our above example, S1 achieves 100 F1 and S2 achieves 66.7 F1 (recall: 60, precision: 75). s1 は 100 f1 を達成し、s2 は 66.7 f1 (recall: 60, precision: 75) を達成する。 0.73
For the coreference evaluation, we propose to follow CoNLL-2012 and apply coreference metrics only on non-singleton (gold and predicted) clusters, as singletons are already evaluated under the mention detection evaluation. 同一参照評価のために,conll-2012をフォローし,非シングルトン(金および予測)クラスタのみにコリファレンスメトリクスを適用することを提案する。
訳抜け防止モード: コア参照評価では,CoNLL-2012に従い,非シングルトン(金および予測)クラスタのみにコア参照メトリクスを適用することを提案する。 シングルトンは 言及検出評価で 評価済みです。
0.77
We note also that even when omitting singletons, coreference metrics still penalize models for making coreference errors involving singletons (as S2 is penalized for linking “announcement” to a cluster). また、シングルトンを省略しても、コリファレンスメトリクスは、シングルトンを含むコリファレンスエラーを発生させるモデルにペナルティを課している(s2は“発表”をクラスタにリンクするためにペナルティ化されているため)。
訳抜け防止モード: また、シングルトンを省略しても、コア参照メトリクスはシングルトンを含むコア参照エラーを発生させるモデル(例えば)をペナルティ化する。 S2は“発表”をクラスタにリンクするために罰せられる。
0.63
We further show empirically (§4.2) that when evaluating using gold mentions, the singleton effect is amplified and harms the validity of the current CD evaluation protocol. さらに、金の言及を用いた評価では、シングルトン効果が増幅され、現在のCD評価プロトコルの有効性が損なわれることを実証的に示す(4.2)。 0.65
Evidently, a dummy baseline that predicts no coreference links and puts each input gold mention in a singleton cluster achieves non-negligible performance (Luo, 2005), while state-of-the-art results are artificially inflated. ダミーベースラインは、コア参照リンクを予測せず、各入力金の言及をシングルトンクラスタに配置し、非無視性能を達成する(Luo, 2005)一方で、最先端の結果は人工的に膨らませられる。 0.64
3.2 Confronting Lexical Ambiguity As mentioned previously, the same event can be described in documents from different topics, while documents in the same topic may describe different events (e g different nominations as surgeon general, as shown in Table 1). 3.2 前述したように語彙の曖昧さに直面すると、同じ出来事は異なる話題の文書に記述でき、同じ話題の文書は異なる出来事を記述できる(例えば、表1に示すように、外科医の将軍としての異なる推薦)。 0.70
Such settings pose a lexical ambiguity problem, where models encounter identical or lexically-similar words that should be assigned to different coreference clusters. このような設定は、モデルが異なるコア参照クラスタに割り当てられるべき同一または類似の単語に遭遇する語彙的曖昧さの問題を引き起こす。 0.71
Accordingly, while topical document clustering is useful for CD coreference resolution in general, it does not solve the ambiguity problem and models still need to make subtle disambiguation distinctions (e.g nomination of Sanjay Gupta vs. nomination of Regina Benjamin). したがって、トピック形式の文書クラスタリングはCDのコア参照解決に一般的に有用であるが、あいまいさの問題は解決せず、モデルは微妙な曖昧さを区別する必要がある(例えば、サンジェイ・グプタ(Sanjay Gupta)とレジーナ・ベンジャミン(Reginina Benjamin))。 0.58
Aiming at simulating this chal- このチャルをシミュレートすることを目指して- 0.48
4This also makes possible to compare coreference results across datasets that include/omit singletons, addressing an issue raised by Stoyanov et al (2009). 4 これはまた、Stoyanov et al (2009)によって提起された問題に対処するため、シングルトンを含むデータセット間でコア参照結果を比較することもできる。 0.57
英語(論文から抽出)日本語訳スコア
Subtopic Clustering サブトピッククラスタリング 0.69
Topic Level MUC トピックレベル MUC 0.81
P 0 0 p 0 0 である。 0.57
F1 0 0 B3 P 100 0 F1 0 B3 P100 0 0.89
R 45.2 0 F1 62.3 R45.2 0 F1 62.3 0.70
0 CEAF e R 86.7 0 CEAF e R86.7 0.79
0 P 39.2 0 0 p 39.2 0 0.79
F1 54.0 0 LEA F1 54.0 0 LEA 0.76
P 35.0 0 R 35.0 p 35.0 0 R35.0 0.73
0 F1 35.0 0 0 F1 35.0 0 0.76
CoNLL F1 38.8 CoNLL f1 38.8 0.70
0 R 0 0 0 r 0 0 である。 0.70
Singleton baseline+ Singleton baseline− 78.1 Barhom et al (2019)+ Barhom et al (2019)− 78.1 78.8 Meged et al (2020)+ Meged et al (2020)− 78.8 85.1 Our model – Gold+ Our model – Gold− 85.1 Our model – Predicted+ 61.7 Our model – Predicted− 61.7 80.1 Our model – Gold+ Our model – Gold− 80.1 Our model – Predicted+ 61.5 Our model – Predicted− 61.5 Singleton baseline+ 78.1 Barhom et al (2019)+ Barhom et al (2019)− 78.1 78.8 Meged et al (2020)+ Meged et al (2020)− 78.8 85.1 我々のモデル - Gold+ our model – Gold- 85.1 我々のモデル - Predicted+61.7 我々のモデル - Predicted−61.7 80.1 我々のモデル - Gold+ Our model – Gold- 80.1 我々のモデル - Predicted+ 61.5 我々のモデル - Predicted− 61.5 0.75
79.5 67.6 80.0 68.1 81.0 71.1 62.7 54.4 76.0 62.0 58.9 48.6 Table 3: Event coreference on ECB+ test, while including(+)/excluding(−) singletons in the evaluation, showing that (1) including singletons in coreference metrics inflate performance in all models, (2) using predicted mentions (see rows marked “Predicted”) over gold mentions harms performance, (3) topic level evaluation (bottom part) is markedly lower than subtopic performance, showing that models struggle with lexical ambiguity, and (4) our model outperforms previous models on most F1 scores (see numbers in bold). 79.5 67.6 80.0 68.1 81.0 71.1 62.7 54.4 76.0 62.0 58.9 48.6 Table 3: Event coreference on ECB+ test, while including(+)/excluding(−) singletons in the evaluation, showing that (1) including singletons in coreference metrics inflate performance in all models, (2) using predicted mentions (see rows marked “Predicted”) over gold mentions harms performance, (3) topic level evaluation (bottom part) is markedly lower than subtopic performance, showing that models struggle with lexical ambiguity, and (4) our model outperforms previous models on most F1 scores (see numbers in bold). 0.94
72.3 71.2 73.4 71.2 72.0 67.6 57.7 53.8 59.1 49.6 46.2 37.4 72.3 71.2 73.4 71.2 72.0 67.6 57.7 53.8 59.1 49.6 46.2 37.4 0.41
68.3 64.2 68.8 63.4 70.4 67.9 51.6 48.7 61.0 54.2 44.8 39.1 68.3 64.2 68.8 63.4 70.4 67.9 51.6 48.7 61.0 54.2 44.8 39.1 0.41
76.8 61.2 75.9 60.4 82.1 70.8 57.8 47.6 77.4 63.4 55.6 44.7 76.8 61.2 75.9 60.4 82.1 70.8 57.8 47.6 77.4 63.4 55.6 44.7 0.41
86.1 73.5 85.9 73.8 82.7 70.2 68.4 56.9 71.7 54.1 56.1 41.4 86.1 73.5 85.9 73.8 82.7 70.2 68.4 56.9 71.7 54.1 56.1 41.4 0.41
81.2 66.8 80.6 66.4 82.4 70.5 62.6 51.8 74.5 58.4 55.8 43.0 81.2 66.8 80.6 66.4 82.4 70.5 62.6 51.8 74.5 58.4 55.8 43.0 0.41
84.0 84.0 84.7 84.7 81.9 81.9 67.4 67.4 76.3 76.3 62.5 62.5 84.0 84.0 84.7 84.7 81.9 81.9 67.4 67.4 76.3 76.3 62.5 62.5 0.41
80.9 80.9 81.6 81.6 83.5 83.5 64.5 64.5 78.1 78.1 62.0 62.0 80.9 80.9 81.6 81.6 83.5 83.5 64.5 64.5 78.1 78.1 62.0 62.0 0.41
64.6 58.4 64.7 57.2 68.8 68.2 46.6 44.4 62.9 59.7 43.4 40.9 64.6 58.4 64.7 57.2 68.8 68.2 46.6 44.4 62.9 59.7 43.4 40.9 0.41
79.6 63.2 81.1 65.5 75.2 68.2 57.2 53.0 73.1 56.3 52.8 43.9 79.6 63.2 81.1 65.5 75.2 68.2 57.2 53.0 73.1 56.3 52.8 43.9 0.41
73.3 48.9 74.8 49.5 78.9 52.3 65.5 41.9 77.8 44.2 66.7 37.9 73.3 48.9 74.8 49.5 78.9 52.3 65.5 41.9 77.8 44.2 66.7 37.9 0.41
76.3 55.2 77.8 56.4 77.0 59.2 61.1 46.8 75.4 49.5 59.0 40.7 76.3 55.2 77.8 56.4 77.0 59.2 61.1 46.8 75.4 49.5 59.0 40.7 0.41
lenge on a manageable annotation task, the ECB+ authors (Cybulska and Vossen, 2014) augmented each topic in the original ECB with an additional subtopic of the same event type, allowing to challenge models with lexical ambiguity (as mentioned in Section 2). ECB+ の著者 (Cybulska と Vossen, 2014) は、それぞれのトピックをオリジナルの ECB に拡張し、同じイベントタイプのサブトピックを追加し、語彙的曖昧性のあるモデルに挑戦できるようにする(第2節で述べられている)。 0.81
However, recent works (Barhom et al , 2019; Meged et al , 2020) predict coreference clusters separately on each subtopic, using a simple unsupervised document clustering during preprocessing. しかしながら、最近の研究(Barhom et al , 2019; Meged et al , 2020)では、前処理中に単純な教師なしドキュメントクラスタリングを使用して、各サブトピー上のコア参照クラスタを別々に予測している。 0.59
Such clustering performs near perfectly on ECB+ because of its synthetic structure, where each topic includes exactly two subtopics with only a few coreference links across different subtopics. このようなクラスタリングはecb+の合成構造によってほぼ完璧に動作し、各トピックはちょうど2つのサブトピックを含み、異なるサブトピック間のコリファレンスリンクは少ない。 0.67
Yet, document clustering is not expected to perform as well in realistic settings where coreferring events can spread multiple topics. しかし、複合イベントが複数のトピックを分散できる現実的な設定では、ドキュメントクラスタリングのパフォーマンスは期待できない。 0.73
More importantly, this bypasses intentions behind the inclusion of subtopics in the ECB+’s and avoids challenging the coreference models on lexical ambiguity. さらに重要なのは、これはECB+のサブトピックの背景にある意図を回避し、語彙的曖昧性に関するコアモデルへの挑戦を避けることだ。 0.57
Indeed, the ECB+ authors, in a subsequent work, did not apply a topic clustering (Cybulska and Vossen, 2015). 実際、ECB+の著者はその後の研究でトピック・クラスタリングを適用しなかった(Cybulska と Vossen, 2015)。 0.66
We therefore recommend that models report results also at the topic level (when document clustering is not applied). したがって、モデルがトピックレベルでも結果を報告することを推奨する(ドキュメントクラスタリングは適用されない)。 0.75
This will conform to ECB+’s purpose and follows the original evaluation setup of the ECB+ corpus (Bejan and Harabagiu, 2014). これはECB+の目的に従っており、ECB+コーパスの当初の評価設定に従っている(Bejan and Harabagiu, 2014)。 0.73
4 Experiments clusion, and subtopic clustering) artificially inflates the results (§4.2). 4つの実験 包含、および亜熱帯のクラスタリング)は人工的に結果を膨らませる(4.2)。 0.61
As recent CD coreference models are designed to perform on gold mentions (§2), we cannot use them to set baseline results on predicted mentions. 近年のCDコア参照モデルは金の言及で実行するように設計されているため、予測された言及に基づいてベースライン結果を設定することはできない。 0.57
We therefore develop a simple and efficient end-to-end model for CD coreference resolution by combining the successful single document e2e-coref (Lee et al , 2017) with common CD modeling approaches. そこで我々は、CDコア参照解決のための単純で効率的なエンドツーエンドモデルを、成功した単一文書 e2e-coref (Lee et al , 2017) と共通のCDモデリングアプローチを組み合わせて開発する。 0.62
4.1 Model We briefly describe the general architecture of our model, further details are explained in (Cattan et al , 2021) and Appendix C. Given a set of documents, our model operates in four sequential steps: (1) following Lee et al (2017), we encode all possible spans up to a length n with the concatenation of four vectors: the output representations of the span boundary (first and last) tokens, an attentionweighted sum of token representations in the span, and a feature vector denoting the span length (2) we train a mention detector on the ECB+ mentions, and keep further spans with a positive score,5 (3) we generate positive and negative coreference pairs on the predicted mentions and train a pairwise scorer, and (4) apply an agglomerative clustering on the pairwise similarity scores to form the coreference clusters at inference. 4.1モデル We briefly describe the general architecture of our model, further details are explained in (Cattan et al , 2021) and Appendix C. Given a set of documents, our model operates in four sequential steps: (1) following Lee et al (2017), we encode all possible spans up to a length n with the concatenation of four vectors: the output representations of the span boundary (first and last) tokens, an attentionweighted sum of token representations in the span, and a feature vector denoting the span length (2) we train a mention detector on the ECB+ mentions, and keep further spans with a positive score,5 (3) we generate positive and negative coreference pairs on the predicted mentions and train a pairwise scorer, and (4) apply an agglomerative clustering on the pairwise similarity scores to form the coreference clusters at inference. 0.78
We show empirically that each of the previous evaluation practices (using gold mentions, singleton in- これまでの評価実践(gold mentions、singleton in-)のそれぞれを経験的に示す。 0.70
5Here, we deviate from Cattan et al (2021) who dynamically prune spans during training, because we need to predict singleton clusters. 5ここでは、トレーニング中に動的にプーンするCatan et al(2021)から逸脱し、シングルトンクラスタを予測する必要がある。 0.69
英語(論文から抽出)日本語訳スコア
4.2 Results We first evaluate our model under the current evaluation setup (gold mentions, singletons, subtopic) and compare it with two recent neural state-ofthe-art models (Barhom et al , 2019; Meged et al , In addition, we test a dummy singleton 2020). 4.2 結果は、現在の評価設定(ゴールド言及、シングルトン、サブトピック)の下でまずモデルを評価し、最近の2つのニューラルステート・オブ・ザ・アートモデル(barhom et al , 2019; meged et al)と比較します。 0.66
baseline which puts each gold mention in a singleton cluster and re-evaluate all baselines while omitting singletons. シングルトンクラスタに各ゴールド言及を配置し、すべてのベースラインを再評価し、シングルトンを省略するベースライン。 0.68
The results in Table 3 show that our model surpasses current state-of-the-art results in previous settings, supporting its relevance for setting baseline results over predicted mentions. 表3の結果は,我々のモデルが過去の設定における現在の技術結果を上回っていることを示している。 0.71
The mention detection performance of our model is 80.1 F1 (Recall 76 and Precision 84.7). このモデルの参照検出性能は 80.1 f1 (recall 76 と precision 84.7) である。 0.74
The results corroborate the importance of our proposed evaluation enhancements. その結果,提案する評価強化の重要性が裏付けられた。 0.70
First, the performance drops dramatically when using predicted mentions (e g from 71.1 to 54.4 F1 at the subtopic level). まず、予測された言及(例えば、サブトピックレベルで71.1から54.4 f1)を使用すると、パフォーマンスは劇的に低下する。 0.58
Second, for all models, the results are significantly higher when including singletons in coreference metrics, because, as explained in Section 3.1, models are rewarded for singleton prediction. 第2に、すべてのモデルにおいて、モデルがシングルトン予測に報いるため、コア参照のメトリクスにシングルトンを含めると、結果は大幅に高くなる。 0.59
Indeed, the model performs better in mention detection than in coreference linking, confirming the importance of decoupling the evaluation of the two subtasks. 実際、このモデルはコリファレンスリンクよりも参照検出が優れており、2つのサブタスクの評価を分離する重要性が確認されている。 0.64
Finally, performance is lower at the topic level than at the subtopic level (62.0 vs. 71.1 F1 using gold mentions and 48.6 vs. 54.4 F1 using predicted mentions), indicating that models struggle with lexical ambiguity (§3.2). 最後に、トピックレベルでのパフォーマンスはサブトピックレベルよりも低い(金の言及では62.0対71.1 F1、予測された言及では48.6対54.4 F1)。 0.71
Taken together, evaluating over raw text without singletons while not clustering into fine-grained subtopics, leads to a performance drop of 33 F1 points, indicating the vast room for improvement under realistic settings. 総合すると、シングルトンなしで生のテキストを評価しながら細粒度のサブトピックにクラスタリングしないことによって、33のf1ポイントのパフォーマンスが低下し、現実的な設定で改善の余地が広がる。 0.65
5 Conclusion We established two realistic evaluation principles for CD coreference resolution: (1) predicting mentions and (2) facing the lexical ambiguity challenge. 5結論 我々は, (1) 言及の予測, (2) 語彙曖昧性課題の対面という2つのcdコリファレンス解決のための現実的な評価原理を確立した。 0.63
We also set baseline results for future work on our evaluation methodology using a SOTA model. また,SOTAモデルを用いた評価手法に関する今後の研究のベースラインを定めている。 0.75
Acknowledgment We thank Shany Barhom for fruitful discussion and sharing code, and Yehudit Meged for providing her coreference predictions. acknowledgment 私たちはshany barhom氏に実りある議論とコード共有に感謝します。
訳抜け防止モード: 承認 Shany Barhom氏に有意義な議論とコード共有を感謝します。 Yehudit Meged氏はコア推論の予測を提供した。
0.55
The work described herein was supported in part by grants from Intel Labs, Facebook, the Israel Science Foundation grant 1951/17, the Israeli Ministry of Science and Technology, the German Research Foundation through the German-Israeli Project Cooperation この研究は、Intel Labs、Facebook、イスラエル科学財団、イスラエル科学技術省、ドイツ・イスラエル・プロジェクト協力を通じてドイツ研究財団、1951/17の助成金によって部分的に支持された。 0.75
(DIP, grant DA 1600/1-1), and from the Allen Institute for AI. (DIP、DA 1600/1-1)およびアレンAI研究所。 0.70
Ethical Considerations Model As described in the supplementary material (§C), our cross-document coreference model does not contain any intentional biasing or ethical issues, and our experiments were conducted on a single 12GB GPU, with relatively low compute time. 補足資料に記載された倫理的考察モデルでは,ドキュメント間の相互参照モデルには意図的なバイアスや倫理的問題が含まれておらず,計算時間も比較的少ない12gbのgpu上で実験を行った。 0.72
References Amit Bagga and Breck Baldwin. Amit Bagga と Breck Baldwin を参照。 0.82
1998. Entitybased cross-document coreferencing using the vecIn 36th Annual Meeting of the tor space model. 1998. vecIn 36th Annual Meeting of the tor space model を用いたエンティティベースのクロスドキュメントコア会議 0.79
Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Volume 1, pages 79–85, Montreal, Quebec, Canada. Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Volume 1, page 79–85, Montreal, Quebec, Canada 0.88
Association for Computational Linguistics. Shany Barhom, Vered Shwartz, Alon Eirew, Michael Bugert, Nils Reimers, and Ido Dagan. 計算言語学会会員。 Shany Barhom、Vered Shwartz、Alon Eirew、Michael Bugert、Nils Reimers、Ido Dagan。 0.60
2019. Revisiting joint modeling of cross-document entity and event coreference resolution. 2019. クロスドキュメントエンティティとイベントコア参照解決の合同モデリングの再検討 0.77
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4179–4189, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 4179–4189, イタリア・フィレンツェ。 0.71
Association for Computational Linguistics. C. Bejan and Sanda M. Harabagiu. 計算言語学会会員。 C. BejanとSanda M. Harabagiu。 0.66
2014. Unsupervised event coreference resolution. 2014. 教師なしイベントコリファレンス解決。 0.62
Computational Linguistics, 40:311–347. 計算言語学 40:311–347。 0.57
Cosmin Bejan and Sanda Harabagiu. コスミン・ベジャンとサンダ・ハラバギウ。 0.30
2010. Unsupervised event coreference resolution with rich linguistic features. 2010. 豊かな言語特徴を持つ教師なしイベントコリファレンス解決。 0.72
In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 1412–1422, Uppsala, Sweden. 第48回計算言語学会年次総会において、スウェーデン・ウプサラの1412-1422頁が提出された。 0.60
Association for Computational Linguistics. Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, and Ido Dagan. 計算言語学会会員。 Arie Cattan、Alon Eirew、Gabriel Stanovsky、Mandar Joshi、Ido Dagan。 0.61
2021. Cross-document coreference resolution over predicted mentions. 2021. 予測された参照に対するクロスドキュメントのコリファレンス解決。 0.64
In Findings of the Association for Computational Linguistics: ACL 2021, Online. In Findings of the Association for Computational Linguistics: ACL 2021, Online 0.76
Association for Computational Linguistics. Hong Chen, Zhenhua Fan, Hao Lu, Alan Yuille, and Shu Rong. 計算言語学会会員。 Hong Chen, Zhenhua Fan, Hao Lu, Alan Yuille, Shu Rong 0.59
2018. PreCo: A large-scale dataset in preschool vocabulary for coreference resolution. 2018. PreCo: コア参照解決のためのプレスクール語彙の大規模なデータセット。 0.76
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 172–181, Brussels, Belgium. 自然言語処理における経験的手法に関する2018年会議の議題172-181ページ、ブリュッセル、ベルギー。 0.80
Association for Computational Linguistics. Prafulla Kumar Choubey and Ruihong Huang. 計算言語学会会員。 Prafulla Kumar ChoubeyとRuihong Huang。 0.65
2017. Event coreference resolution by iteratively unfoldIn Proceeding inter-dependencies among events. 2017. イベント間の相互依存性を反復的に展開するイベントコリファレンス解決。 0.78
ings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2124–2133, Copenhagen, Denmark. 2017 Conference on Empirical Methods in Natural Language Processing, page 2124–2133, Copenhagen, Denmark (デンマーク)。 0.88
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Agata Cybulska and Piek Vossen. Agata CybulskaとPiek Vossen。 0.77
2014. Using a lexical diversity sledgehammer to crack a nut? 2014. レキシカルな多様性のハンマーを使ってナッツを割る? 0.72
In Proceedings and event coreference resolution. ProceedingsとEvent Coreferenceの解決。 0.54
of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pages 4545– 4552, Reykjavik, Iceland. 第9回言語資源評価国際会議(LREC'14, page 4545-4552, Reykjavik, Iceland)に参加。 0.74
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Agata Cybulska and Piek Vossen. Agata CybulskaとPiek Vossen。 0.77
2015. Translating granularity of event slots into features for event In Proceedings of the The coreference resolution. 2015. イベントスロットの粒度をコリファレンス解決の手続きにおけるイベントの特徴に変換する。 0.79
3rd Workshop on EVENTS: Definition, Detection, Coreference, and Representation, pages 1–10, Denver, Colorado. 第3回EVENTSワークショップ: Definition, Detection, Coreference, and Representation, page 1–10, Denver, Colorado 0.84
Association for Computational Linguistics. Mandar Joshi, Omer Levy, Luke Zettlemoyer, and Daniel Weld. 計算言語学会会員。 Mandar Joshi、Omer Levy、Luke Zettlemoyer、Daniel Weld。 0.61
2019. BERT for coreference resoIn Proceedings of lution: Baselines and analysis. 2019. BERT for coreference resoIn Proceedings of lution: Baselines and analysis 0.79
the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 5803–5808, Hong Kong, China. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 5803–5808, Hong Kong, China 0.90
Association for Computational Linguistics. Kian Kenyon-Dean, Jackie Chi Kit Cheung, and Doina Precup. 計算言語学会会員。 Kian Kenyon-Dean, Jackie Chi Kit Cheung, Doina Precup 0.63
2018. Resolving event coreference with supervised representation learning and clusteringthe oriented regularization. 2018. 教師付き表現学習とクラスタリングによるイベントコリファレンスの解決 指向型正規化。 0.74
Seventh Joint Conference on Lexical and Computational Semantics, pages 1–10, New Orleans, Louisiana. 7th joint conference on lexical and computational semantics, pages 1–10, new orleans, louisiana (英語) 0.76
Association for Computational Linguistics. In Proceedings of 計算言語学会会員。 in Proceedings of ~ 0.66
Heeyoung Lee, Marta Recasens, Angel Chang, Mihai Surdeanu, and Dan Jurafsky. Heeyoung Lee、Marta Recasens、Angel Chang、Mihai Surdeanu、Dan Jurafsky。 0.68
2012. Joint entity and event coreference resolution across documents. 2012. ドキュメント間の統合エンティティとイベントコリファレンス解決。 0.72
In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 489–500, Jeju Island, Korea. 2012年、韓国・十重島489-500ページの自然言語処理と計算自然言語学習に関する実証的手法に関する合同会議が開催。 0.80
Association for Computational Linguistics. Kenton Lee, Luheng He, Mike Lewis, and Luke Zettlemoyer. 計算言語学会会員。 Kenton Lee、Luheng He、Mike Lewis、Luke Zettlemoyer。 0.62
2017. End-to-end neural coreference resoIn Proceedings of the 2017 Conference on lution. 2017. エンドツーエンドのニューラルコア参照 ResoIn 2017 Conference on lutionの声明 0.74
Empirical Methods in Natural Language Processing, pages 188–197, Copenhagen, Denmark. Empirical Methods in Natural Language Processing, page 188–197, Copenhagen, Denmark. 0.96
Association for Computational Linguistics. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 計算言語学会会員。 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.66
2019. RoBERTa: A robustly optimized BERT pretraining approach. 2019. RoBERTa: 堅牢に最適化されたBERT事前トレーニングアプローチ。 0.74
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Xiaoqiang Luo. Xiaoqiang Luo 0.57
2005. On coreference resolution perIn Proceedings of Human Lanformance metrics. 2005. In Proceedings of Human Lanformance Metricsについて 0.66
guage Technology Conference and Conference on Empirical Methods in Natural Language Processing, pages 25–32, Vancouver, British Columbia, Canada. guage Technology Conference and Conference on Empirical Methods in Natural Language Processing, page 25–32, Vancouver, British Columbia, Canada 0.86
Association for Computational Linguistics. Yehudit Meged, Avi Caciularu, Vered Shwartz, and Ido Dagan. 計算言語学会会員。 Yehudit Meged、Avi Caciularu、Vered Shwartz、Ido Dagan。 0.57
2020. Paraphrasing vs coreferring: Two 2020. paraphrasing対coreferringの2つ 0.79
In Findings of the Associsides of the same coin. 同じ硬貨のアソシエイト(Associsides)の発見。 0.58
ation for Computational Linguistics: EMNLP 2020, pages 4897–4907, Online. 計算言語学のための辞書:EMNLP 2020, page 4897–4907, Online 0.78
Association for Computational Linguistics. Nafise Sadat Moosavi and Michael Strube. 計算言語学会会員。 Nafise Sadat MoosaviとMichael Strube。 0.66
2016. Which coreference evaluation metric do you trust? 2016. どの基準評価指標を信頼していますか? 0.74
a proposal for a link-based entity aware metric. リンクベースのエンティティ対応メトリックの提案。 0.59
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 632–642, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers, 632–642, Berlin, Germany)に参加して 0.67
Association for Computational Linguistics. Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Olga Uryupina, and Yuchen Zhang. 計算言語学会会員。 Sameer Pradhan, Alessandro Moschitti, Nianwen Xue, Olga Uryupina, Yuchen Zhang 0.60
2012. CoNLL2012 shared task: Modeling multilingual unrestricted coreference in OntoNotes. 2012. conll2012 shared task: modeling multilingual unrestricted coreference in ontonotes (英語) 0.78
In Joint Conference on EMNLP and CoNLL - Shared Task, pages 1–40, Jeju Island, Korea. EMNLP と CoNLL - Shared Task, page 1–40, Jeju Island, Korea 0.59
Association for Computational Linguistics. Altaf Rahman and Vincent Ng. 計算言語学会会員。 Altaf RahmanとVincent Ng。 0.66
2009. Supervised modIn Proceedings of els for coreference resolution. 2009. Supervised modIn コア参照解決のためのelのプロセッシング。 0.70
the 2009 Conference on Empirical Methods in Natural Language Processing, pages 968–977, Singapore. 2009 Conference on Empirical Methods in Natural Language Processing, page 968–977, Singapore 0.79
Association for Computational Linguistics. Veselin Stoyanov, Nathan Gilbert, Claire Cardie, and Ellen Riloff. 計算言語学会会員。 ヴェゼリン・ストヤノフ、ネイサン・ギルバート、クレア・カーディー、エレン・リロフ。 0.49
2009. Conundrums in noun phrase coreference resolution: Making sense of the stateof-the-art. 2009. conundrums in noun phrase coreference resolution: making sense of the state of the-the-art (英語) 0.74
In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pages 656–664, Suntec, Singapore. acl第47回年次総会(英語版)と第4回国際自然言語処理合同会議(英語版)合同会議(英語版)の議事録では、シンガポールのサンテックの656-664ページが挙げられている。
訳抜け防止モード: 第47回acl年次大会合同会議の開催にあたって 第4回afnlp自然言語処理国際共同会議に参加して 656-664頁、サンテック、シンガポール。
0.64
Association for Computational Linguistics. Erik F. Tjong Kim Sang and Fien De Meulder. 計算言語学会会員。 Erik F. Tjong Kim SangとFien De Meulder。 0.70
2003. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. 2003. CoNLL-2003の共有タスクの紹介:言語に依存しない名前付きエンティティ認識。 0.72
In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, pages 142–147. The Seventh Conference on Natural Language Learning at HLT-NAACL 2003, page 142–147。 0.77
Marc Vilain, John Burger, John Aberdeen, Dennis Connolly, and Lynette Hirschman. マーク・ヴァイラン、ジョン・バーガー、ジョン・アバディーン、デニス・コノリー、リネット・ヒルシュマン。 0.54
1995. A modeltheoretic coreference scoring scheme. 1995. モデル理論コアスコアリング方式 0.67
In Sixth Message Understanding Conference (MUC-6): Proceedings of a Conference Held in Columbia, Maryland, November 6-8, 1995. 第六回メッセージ理解会議(MUC-6):1995年11月6日~8日、メリーランド州コロンビアで開催。 0.70
Bishan Yang, Claire Cardie, and Peter Frazier. Bishan Yang、Claire Cardie、Peter Frazier。 0.66
2015. A hierarchical distance-dependent Bayesian model for event coreference resolution. 2015. イベントコリファレンス解決のための階層的距離依存ベイズモデル 0.79
Transactions of the Association for Computational Linguistics, 3:517–528. 計算言語学協会 (association for computational linguistics, 3:517–528) の略称。 0.48
英語(論文から抽出)日本語訳スコア
A The ECB+ Dataset Documents in ECB+ were selected from various topics in the Google News archive in English, while annotation was performed separately for each topic. ECB+のECB+データセット文書は英語のGoogle Newsアーカイブのさまざまなトピックから選ばれ、各トピックごとにアノテーションが個別に行われた。 0.87
ECB+ statistics are shown in Table 4. ECB+統計は表4に示す。 0.86
As opposed to Ontonotes, only a few sentences are exhaustively annotated in each document, and the annotations include singletons. オントノートとは対照的に、各文書に全文が注記され、注釈にはシングルトンが含まれている。 0.75
In addition, it is worth noting that the ECB+ authors kept the entities from EECB (Lee et al , 2012) only if they participate in events in the annotated sentences, while leaving all other entities. さらに、ECB+の著者は、他のすべてのエンティティを残しながら、注釈付き文のイベントに参加する場合にのみ、EECB(Lee et al , 2012)からエンティティを保持していたことに注意する必要がある。 0.66
Accordingly, “Los Angeles” and “Los Angeles hospital” are marked as coreferent in the sentences “Yesterday in Los Angeles, pin-up icon Bettie Page succumbed to complications.. and ”Pinup icon Bettie Page died Thursday evening at a hospital in Los Angeles..” because they refer to the location of the same event. そのため、「ロサンゼルス」と「ロサンゼルス病院」は、「ロサンゼルスのイエスターデイ、ピンアップアイコン「ベティ・ペイジ」が合併症で倒れた」という文の中で中核的存在としてマークされており、「ピナップアイコン「ベティ・ペイジ」は、同じイベントの場所を指して、木曜日の夜、ロサンゼルスの病院で死亡した。
訳抜け防止モード: そのため、“Los Angeles ” と “Los Angeles hospital ” は文中核としてマークされている。 昨日ロサンゼルスで、ピンアップアイコン「Bettie Page」が合併症で倒れた ピナップのアイコン「ベティ・ペイジ」は、ロサンゼルスの病院で死亡した。 同じ出来事の場所を指しています
0.79
This differs from the standard entity coreference resolution since detecting those entities involves an additional challenge of extracting event participants, for example, using a Semantic Role Labeling system. これらのエンティティを検出するには、例えばSemantic Role Labelingシステムを使ってイベント参加者を抽出するという追加の課題が伴う。 0.62
# Topics # Documents # Sentences # Mentions # Singletons # Clusters # Topics # Documents # Sentences # Mentions # Singletons # Clusters 0.85
Train 25 594 1037 3808/4758 1116/814 411/472 Train 25 594 1037 3808/4758 1116/814 411/472 0.67
Validation Test 8 196 346 1245/1476 280/205 129/125 検証試験 8 196 346 1245/1476 280/205 129/125 0.64
10 206 457 1780/2055 632/412 182/196 10 206 457 1780/2055 632/412 182/196 0.63
Table 4: ECB+ statistics. 表4:ECB+統計。 0.84
# Clusters do not include singletons. クラスタにはシングルトンは含まれない。 0.68
The slash numbers for # Mentions, # Singletons, and # Clusters represent event/entity statistics. # Mentions、# Singletons、# Clustersのスラッシュ番号は、イベント/エンティティ統計を表す。 0.81
As recommended by the authors in the release note, we follow the split of Cybulska and Vossen (2015) that uses a curated subset of the dataset. リリースノートで著者らが推奨しているように、データセットのキュレートされたサブセットを使用するCybulskaとVossen(2015)の分割に従っている。 0.65
B Singleton Effect on Coreference B シングルトンが干渉に及ぼす影響 0.61
Metrics Here, we briefly introduce the different evaluation metrics for coreference resolution (MUC, B3, CEAF and LEA) and explain how singletons affect them. メトリクス ここでは,コリファレンスレゾリューション(muc,b3,ceaf,lea)のための評価指標を簡潔に紹介するとともに,シングルトンがそれらの影響について説明する。 0.63
As mentioned in the paper, all evaluation metrics penalize models for wrongly linking a singleton to a cluster or singletons together. 論文で述べたように、すべての評価指標は、シングルトンとクラスタまたはシングルトンを誤ってリンクするモデルに罰を与える。 0.69
However, B3, CEAF and LEA further reward models for predicting singleton clusters, as explained below. しかし、b3、ceaf、leaは以下のようにシングルトンクラスターの予測にさらなる報酬モデルを提供する。 0.64
MUC Introduced by (Vilain et al , 1995), MUC is an early link-based evaluation metric for corefer- MUC introducedd by (Vilain et al , 1995) MUCは、コアファーの初期リンクに基づく評価指標である。 0.83
ence resolution. エンセレゾリューション 0.16
Recall and precision are measured based on the minimal number of coreference links needed to align gold and predicted clusters, as follows: 金と予測されたクラスターの調整に必要なコリファレンスリンクの最小数に基づいて、リコールと精度を次のように測定する。 0.71
(cid:80) (cid:80) ki∈K(|ki| − |p(ki)|) kj∈K(|kj| − 1) (cid:80) (cid:80) kihtmlk(|ki| − |p(ki)|) kjhtmlk(|kj| − 1) 0.71
Recall = (1) where p(ki) is the set of different predicted clusters that contain one or more mention of the gold cluster ki. リコール= (1) ここで p(ki) は1つ以上のゴールドクラスター ki を含む様々な予測されたクラスターの集合である。 0.76
The precision is obtained by switching the role of the predicted and the gold clusters. 予測されたクラスターと金クラスターの役割を切り替えることで精度を得る。 0.58
Since MUC scores are calculated over the coreference links, singletons do not affect this metric, as observed in our illustrative example in the paper (Section 3.1). MUCスコアはコア参照リンク上で計算されるため、この指標には影響しない(Section 3.1)。
訳抜け防止モード: MUCスコアはコア参照リンク上で計算されるため、シングルトンはこの指標に影響を与えない。 本論文の例に示すように(第3部1節)
0.64
B3 B3 (Bagga and Baldwin, 1998) is a mentionbased evaluation metric, the recall and precision correspond to the average of individual mention scores. B3 B3(Bagga and Baldwin, 1998)は参照に基づく評価指標であり、リコールと精度は個々の参照スコアの平均に対応する。 0.75
The recall is defined as the proportion of its true coreferering mentions that the system links, over all the gold coreferering mentions that are linked to it, as follows: このリコールは、真のcorefereringの比率として定義されており、以下のとおり、gold corefereringが関連するすべてのgold corefereringの言及にリンクしている。 0.60
Recall(mi) = リコール(mi) = 0.65
|Rmi ∩ Kmi| |Kmi| ルミ・シュ・クミ| |Kmi| 0.45
(2) where Rmi and Kmi are respectively the system and the gold cluster containing the mention mi. (2) Rmi と Kmi はそれぞれシステムであり、参照 mi を含む金のクラスタである。 0.83
The precision is obtained by switching the role of the predicted and gold clusters. 予測された金クラスターの役割を切り替えて精度を得る。 0.57
Here, all mentions mi (including singleton mentions) are scored in Eq 2 and participate in the overall recall and precision score. ここでは、すべての言及mi(シングルトン言及を含む)がEq 2でスコアされ、全体のリコールと精度スコアに参加する。
訳抜け防止モード: ここでは、すべての言及(シングルトン言及を含む)がEq 2で得点される。 総合リコールと精度スコアに 参加。
0.71
Therefore, a singleton that was successfully predicted will be rewarded 100% in both precision and recall, missing singletons will affect the recall and extra-singletons will affect the precision. したがって、予測に成功したシングルトンは、精度とリコールの両方で100%報奨され、欠落シングルトンはリコールに影響を与え、余分なシングルトンは精度に影響を及ぼす。 0.62
CEAF Introduced by Luo (2005), CEAF assumes that each predicted cluster should be mapped to only one gold cluster and vice versa. CEAF は Luo (2005) によって導入され、CEAF は予測された各クラスターを1つの金クラスターにマッピングし、その逆を想定している。 0.65
Using the Kuhn-Munkres algorithm, CEAF first finds the best one-to-one mapping g(∗) of the predicted clusters to the gold clusters, according to a similarity function φ. Kuhn-Munkresアルゴリズムを用いて、CEAFは、類似関数 φ に従って、予測されたクラスタの金クラスターへの1対1の最良のマッピング g(∗) を最初に見つける。 0.79
Given this mapping, predicted clusters are compared to their corresponding gold clusters, as follows: このマッピングにより、予測されたクラスタは、対応するゴールドクラスタと比較される。 0.66
(cid:80) (cid:80) ri∈R φ(ri, g∗(ri)) ki∈K φ(ki, ki) (cid:80) (cid:80) rihtmlr φ(ri, g∗(ri)) kihtmlk φ(ki, ki) 0.87
Recall = (3) where R is the set of predicted clusters, K the set of gold clusters, g∗(ri) the gold cluster aligned to リコール= (3) r が予測されたクラスターの集合、k は金クラスターの集合、g∗(ri) は金クラスターが整列する。
訳抜け防止モード: リコール= (3) R は予測されたクラスターの集合、K は金のクラスターの集合である。 g∗(ri ) 整列した金クラスター
0.75
英語(論文から抽出)日本語訳スコア
the predicted cluster ri, and φ() the similarity function. 予測されたクラスター ri と φ() は類似度関数である。 0.80
The precision is obtained by switching the role of the predicted and gold clusters in the denominator. この精度は、分母における予測と金クラスターの役割を切り替えることによって得られる。 0.69
There are two variants of CEAF based on φ, (1) a mention-based CEAFm defined as the number of shared mentions between the two clusters φ(ri, ki) = |ri ∩ ki| and (2) an entity-based |ri∩ki| metric CEAFe: φ(ri, ki) = 2 |ri|+|ki|. CEAF の変種は φ に基づいており、(1) つのクラスタ φ(ri, ki) = |ri > ki| 間の共有言及数として定義される言及ベースの CEAFm と (2) 実体ベースの |ri'ki| 計量 CEAFe: φ(ri, ki) = 2 |ri|+|ki| である。 0.79
Here again, a predicted singleton cluster that appears also in the gold will be obviously mapped to it and will be rewarded 100% in both recall and precision. ここでも、金にも現れる予測されたシングルトンクラスターは、明らかにそれにマッピングされ、リコールと精度の両方で100%報奨される。 0.67
LEA Recently proposed by Moosavi and Strube (2016), LEA is the most recent evaluation metric, designed to overcome shortcomings in previous evaluation metrics, notably the mention identification effect in B3 and CEAF. LEA は Moosavi と Strube (2016) によって最近提案された評価指標であり、特に B3 と CEAF における言及識別効果など、以前の評価指標の欠点を克服するために設計された。 0.69
LEA is a Link-Based Entity-Aware metric, which assigns a score to each coreference cluster, based on all coreference links (n × (n − 1)/2) in the cluster, as follows: LEA は Link-Based Entity-Aware メトリックであり、以下のようにクラスタ内のすべてのコア参照リンク (n × (n − 1)/2) に基づいてスコアを各コア参照クラスタに割り当てる。 0.79
ki∈K(|ki| ×(cid:80) (cid:80) (cid:80) K(|ki| ×(cid:80) (cid:80) (cid:80) 0.63
rj∈R kz∈K |kz| rjhtmlr kzhtmlk |kz| 0.46
link(ki∩rj ) link(ki) ) link(ki'rj ) link(ki) ) 0.93
(4) Recall = where link(ki) is the total number of links in the gold cluster ki, link(ki, rj) is the total number of links in the predicted cluster rj that appears in the gold cluster ki, and |ki| is the number of mentions in the gold cluster ki in order to give higher importance to large clusters. (4) リコール= ここでlink(ki) は金クラスタ Ki 内のリンクの総数、link(ki, rj) は金クラスタ Ki に現れる予測クラスタ rj 内のリンクの総数、|ki| は金クラスタ Ki における参照の総数であり、大きなクラスタにとってより重要となる。 0.70
The precision is calculated by switching the role of the gold clusters K and the predicted clusters R. Singleton clusters are also rewarded because they have self-links (links to themselves). この精度は、金クラスターKと予測クラスターRの役割を切り替えることによって計算される。
訳抜け防止モード: 精度は金クラスターkの役割を切り替えることで計算される。 予測されたクラスターr. シングルトンクラスターも それらは自己-リンク(自己へのリンク)を持っています。
0.65
However, since each cluster score is weighted by the size of the cluster, the singleton effect is less important in LEA, as we can see in the paper (Table 3). しかし、各クラスタのスコアはクラスタのサイズによって重み付けされているため、この論文に見られるように、LEAではシングルトン効果はそれほど重要ではない(表3)。 0.72
C Our Coreference Model c 我々のコリファレンスモデル 0.65
As mentioned in the paper (§4.1), our model is inspired by the single document coreference resolver e2e-coref (Lee et al , 2017). 論文(4.1)で述べたように、私たちのモデルは単一のドキュメントコア参照リゾルバe2e-coref(Lee et al , 2017)にインスパイアされています。 0.59
The e2e-coref model forms the coreference clusters by linking each mention to an antecedent span appearing before it in the text. e2e-corefモデルは、各言及をテキストの前に現れる先行スパンにリンクすることで、コリファレンスクラスタを形成する。 0.73
However, in the CD setting, there is no linear ordering between the documents. しかし、CD設定では、文書間の線形順序は存在しない。 0.74
We therefore implement a new model while modifying the clustering method and the optimization function of the original e2e-coref model, as elaborated below.6 そこで,e2e-corefモデルのクラスタリング法と最適化関数を変更しながら,新しいモデルを実装した。 0.86
6Please refer to Cattan et al (2021) for more details, results 6please from cattan et al (2021) 詳細, 結果 0.61
and ablations of the model. モデルのアブレーションです 0.45
Span Representation Given a set of documents, the first step consists of encoding each document separately using RoBERTaLARGE (Liu et al , 2019). Span Representation 一連のドキュメントに対して、最初のステップはRoBERTaLARGE(Liu et al , 2019)を使用して各ドキュメントを別々にエンコードすることである。 0.74
Long documents are split into non overlapping segments of up to 512 word-piece tokens and are encoded independently (Joshi et al , 2019). 長い文書は512個のワードピーストークンの重複しないセグメントに分割され、独立してエンコードされる(joshi et al , 2019)。 0.78
We then, following Lee et al (2017), represent each possible span up to a length n with the concatenation of four vectors: the output representations of the span boundary (first and last) tokens, an attentionweighted sum of token representations in the span, and a feature vector denoting the span length. 次に、lee et al(2017)に続いて、スパン境界(第1および最後の)トークンの出力表現、スパン内のトークン表現の注意重み付け和、スパン長を示す特徴ベクトルという4つのベクトルの結合によって、各可能なスパンを長さnまで表現した。 0.70
We use gi to refer to the vector representation of the span i. 我々は gi を用いて、スパン i のベクトル表現を参照する。 0.79
Mention Scorer We train a mention detector sm(i) using a simple MLP on top of these span representations, indicating whether i is a mention in ECB+. メンション・スコラー これらのスパン表現の上に単純なMLPを用いて参照検出器sm(i)を訓練し、iがECB+の言及であるかどうかを示す。 0.65
This is possible because singleton mentions are annotated in ECB+ (§A). これはシングルトンでの言及がecb+でアノテートされているため可能である。 0.55
Unlike the e2ecoref, we keep further only detected mentions in both training and inference. e2ecorefとは異なり、トレーニングと推論の両方における言及のみを検知し続ける。 0.60
We also tried the joint approach but the performance drops by 0.4 CoNLL F1 and the run-time was longer. ジョイントアプローチも試したが,パフォーマンスは0.4CoNLL F1に低下し,実行時間が長くなった。 0.68
Pairwise Scorer Given the predicted mentions, we first generate positive and negative training pairs as follows. Pairwise Scorer 予測された言及を前提として、まず正と負のトレーニングペアを生成します。 0.63
The positive instances consist of all the pairs of mentions that belong to the same coreference cluster, while the negative examples are sampled (20x the number of positive pairs) from all other pairs. 正の例は、同じコア参照クラスタに属するすべての参照対で構成され、負の例は他のすべてのペアからサンプリングされる(正のペアの数の20倍)。 0.80
This sampling reduces the computation time, and limits the unbalanced negative ratio between training pairs. このサンプリングは計算時間を短縮し、トレーニングペア間の負の非平衡比を制限する。 0.71
Then, for each pair of mentions i and j, we concatenate 3 vectors: gi, gj, and the element-wise multiplication gi ◦ gj, and feed it to a simple MLP, which outputs a score s(i, j) indicating the likelihood that mentions i and j belong to the same cluster, which we optimize using the binary cross-entropy loss on the pair label. 次に、各一対の言及 i と j に対して、3つのベクトル(gi, gj, および要素分割乗算 gi, gj)を結合し、単純な mlp に供給し、そのスコア s(i, j) を出力し、i と j が同じクラスタに属する可能性を示し、ペアラベル上の二元クロスエントロピー損失を用いて最適化する。 0.76
Due to memory constraints, we freeze output representations from RoBERTa instead of fine-tuning all parameters. メモリ制約のため、すべてのパラメータを微調整する代わりにRoBERTaから出力表現を凍結する。 0.73
Agglomerative Clustering As common in recent CD coreference models (Yang et al , 2015; Choubey and Huang, 2017; Kenyon-Dean et al , 2018; Barhom et al , 2019; Meged et al , 2020), we use an agglomerative clustering on the pairwise scores s(i, j) to form the coreference clusters at inference time. 最近のCDコア参照モデル(Yang et al , 2015; Choubey and Huang, 2017; Kenyon-Dean et al , 2018; Barhom et al , 2019; Meged et al , 2020)に共通する集約クラスタリングでは、ペアのスコアs(i, j)上に集約クラスタリングを使用して、推論時にコア参照クラスタを形成する。 0.81
The agglomerative clustering step merges the most similar cluster pairs until their pairwise similarity score falls below a tuned threshold 凝集クラスタリングステップは、ペアワイズ類似度スコアがチューニングされたしきい値を下回るまで、最も類似したクラスタ対をマージする。 0.66
英語(論文から抽出)日本語訳スコア
τ. Technical Details We conduct our experience on a single GeForce GTX 1080 Ti 12GB GPU. τ. 技術的な詳細 単一のgeforce gtx 1080 ti 12gb gpuで体験を行ないます。 0.83
Our model has 14M parameters. 私たちのモデルはパラメータが14mです。 0.57
On average, the training takes 30 minutes and inference over all the test set takes 3 minutes. 平均的なトレーニングには30分かかり、すべてのテストセットに対する推論には3分を要する。 0.71
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。