論文の概要: Anatomy of OntoGUM--Adapting GUM to the OntoNotes Scheme to Evaluate
Robustness of SOTA Coreference Algorithms
- arxiv url: http://arxiv.org/abs/2110.05727v1
- Date: Tue, 12 Oct 2021 03:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 00:51:05.659721
- Title: Anatomy of OntoGUM--Adapting GUM to the OntoNotes Scheme to Evaluate
Robustness of SOTA Coreference Algorithms
- Title(参考訳): SOTA照合アルゴリズムのロバスト性評価のためのオントノートにGUMを適応させるオントガムの解剖
- Authors: Yilun Zhu, Sameer Pradhan, Amir Zeldes
- Abstract要約: SOTAコアレゾリューションは、OntoNotesベンチマークでますます印象的なスコアを生成する。
より多くのジャンルの同じスキームに匹敵するデータの欠如は、ドメインデータを開くための一般化性を評価するのを難しくする。
OntoGUMコーパスは、最新のニューラルLMベースのエンドツーエンドシステムの発芽性を評価するために開発された。
- 参考スコア(独自算出の注目度): 3.5420134832331325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SOTA coreference resolution produces increasingly impressive scores on the
OntoNotes benchmark. However lack of comparable data following the same scheme
for more genres makes it difficult to evaluate generalizability to open domain
data. Zhu et al. (2021) introduced the creation of the OntoGUM corpus for
evaluating geralizability of the latest neural LM-based end-to-end systems.
This paper covers details of the mapping process which is a set of
deterministic rules applied to the rich syntactic and discourse annotations
manually annotated in the GUM corpus. Out-of-domain evaluation across 12 genres
shows nearly 15-20% degradation for both deterministic and deep learning
systems, indicating a lack of generalizability or covert overfitting in
existing coreference resolution models.
- Abstract(参考訳): SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。
しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。
Zhu et al. (2021)は、最新のニューラルLMベースのエンドツーエンドシステムの発芽性を評価するためのOntoGUMコーパスの作成を導入した。
本稿では,GUMコーパスで手動で注釈付けされたリッチな構文および談話アノテーションに適用される決定論的ルールの集合であるマッピングプロセスの詳細について述べる。
12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。
関連論文リスト
- Investigating Multilingual Coreference Resolution by Universal
Annotations [11.035051211351213]
本研究では,言語レベルでの真理データを調べることによって,コア推論について検討する。
我々は、SotAシステムが解決できない最も困難なケースのエラー解析を行う。
普遍的な形態素的アノテーションから特徴を抽出し,これらの特徴をベースラインシステムに統合し,その潜在的な利点を評価する。
論文 参考訳(メタデータ) (2023-10-26T18:50:04Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - NICO++: Towards Better Benchmarking for Domain Generalization [44.11418240848957]
NICO++というラベル付きドメインを持つ大規模ベンチマークを提案する。
NICO++は現在のDGデータセットと比較して優れた評価能力を示している。
論文 参考訳(メタデータ) (2022-04-17T15:57:12Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12
More Genres [3.5420134832331325]
本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。
OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。
論文 参考訳(メタデータ) (2021-06-02T04:42:51Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。