論文の概要: OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12
More Genres
- arxiv url: http://arxiv.org/abs/2106.00933v2
- Date: Thu, 3 Jun 2021 13:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 07:49:50.022481
- Title: OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12
More Genres
- Title(参考訳): OntoGum: コンテキスト化されたSOTA参照解決を12世代で評価する
- Authors: Yilun Zhu, Sameer Pradhan, Amir Zeldes
- Abstract要約: 本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。
OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。
- 参考スコア(独自算出の注目度): 3.5420134832331325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SOTA coreference resolution produces increasingly impressive scores on the
OntoNotes benchmark. However lack of comparable data following the same scheme
for more genres makes it difficult to evaluate generalizability to open domain
data. This paper provides a dataset and comprehensive evaluation showing that
the latest neural LM based end-to-end systems degrade very substantially out of
domain. We make an OntoNotes-like coreference dataset called OntoGUM publicly
available, converted from GUM, an English corpus covering 12 genres, using
deterministic rules, which we evaluate. Thanks to the rich syntactic and
discourse annotations in GUM, we are able to create the largest human-annotated
coreference corpus following the OntoNotes guidelines, and the first to be
evaluated for consistency with the OntoNotes scheme. Out-of-domain evaluation
across 12 genres shows nearly 15-20% degradation for both deterministic and
deep learning systems, indicating a lack of generalizability or covert
overfitting in existing coreference resolution models.
- Abstract(参考訳): SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。
しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。
本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。
OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。
GUMのリッチな構文および談話アノテーションのおかげで,OntoNotesガイドラインに従って,最大規模の人間注釈付きコア参照コーパスを作成することができ,OntoNotesスキームとの整合性を評価するための最初の方法となる。
12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。
関連論文リスト
- UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - GUMsley: Evaluating Entity Salience in Summarization for 12 English
Genres [14.37990666928991]
GUMsleyは、12のジャンルの英語テキストに対して、名前付きおよび名前なしの敬意的エンティティを全てカバーする最初のエンティティ・サリエンス・データセットである。
いくつかのモデルアーキテクチャに対して健全なエンティティを予測または提供することにより、パフォーマンスが向上し、高品質なサマリーの導出に役立つことを示す。
論文 参考訳(メタデータ) (2024-01-31T16:30:50Z) - Investigating Multilingual Coreference Resolution by Universal
Annotations [11.035051211351213]
本研究では,言語レベルでの真理データを調べることによって,コア推論について検討する。
我々は、SotAシステムが解決できない最も困難なケースのエラー解析を行う。
普遍的な形態素的アノテーションから特徴を抽出し,これらの特徴をベースラインシステムに統合し,その潜在的な利点を評価する。
論文 参考訳(メタデータ) (2023-10-26T18:50:04Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Anatomy of OntoGUM--Adapting GUM to the OntoNotes Scheme to Evaluate
Robustness of SOTA Coreference Algorithms [3.5420134832331325]
SOTAコアレゾリューションは、OntoNotesベンチマークでますます印象的なスコアを生成する。
より多くのジャンルの同じスキームに匹敵するデータの欠如は、ドメインデータを開くための一般化性を評価するのを難しくする。
OntoGUMコーパスは、最新のニューラルLMベースのエンドツーエンドシステムの発芽性を評価するために開発された。
論文 参考訳(メタデータ) (2021-10-12T03:52:49Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。