論文の概要: Investigating Failures to Generalize for Coreference Resolution Models
- arxiv url: http://arxiv.org/abs/2303.09092v1
- Date: Thu, 16 Mar 2023 05:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:47:18.431678
- Title: Investigating Failures to Generalize for Coreference Resolution Models
- Title(参考訳): コリファレンスレゾリューションモデルのための一般化失敗の調査
- Authors: Ian Porada, Alexandra Olteanu, Kaheer Suleman, Adam Trischler, Jackie
Chi Kit Cheung
- Abstract要約: 本稿では,現在のコア参照解決モデルの誤差が,データセット間での運用方法の相違にどの程度関連しているかを検討する。
具体的には、モデル性能をいくつかのタイプのコア参照に対応するカテゴリに分け、分解する。
このブレークダウンは、異なるコア参照タイプをまたいだ一般化能力において、最先端モデルがどのように異なるかを調べるのに役立ちます。
- 参考スコア(独自算出の注目度): 93.95952368743919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coreference resolution models are often evaluated on multiple datasets.
Datasets vary, however, in how coreference is realized -- i.e., how the
theoretical concept of coreference is operationalized in the dataset -- due to
factors such as the choice of corpora and annotation guidelines. We investigate
the extent to which errors of current coreference resolution models are
associated with existing differences in operationalization across datasets
(OntoNotes, PreCo, and Winogrande). Specifically, we distinguish between and
break down model performance into categories corresponding to several types of
coreference, including coreferring generic mentions, compound modifiers, and
copula predicates, among others. This break down helps us investigate how
state-of-the-art models might vary in their ability to generalize across
different coreference types. In our experiments, for example, models trained on
OntoNotes perform poorly on generic mentions and copula predicates in PreCo.
Our findings help calibrate expectations of current coreference resolution
models; and, future work can explicitly account for those types of coreference
that are empirically associated with poor generalization when developing
models.
- Abstract(参考訳): 参照分解モデルはしばしば複数のデータセットで評価される。
しかしデータセットは、コーパスの選択やアノテーションガイドラインなどの要因により、データセットにおけるコリファレンスの理論的概念がどのように運用されているかという、コリファレンスの実現方法によって異なります。
我々は,現在のコア参照解決モデルの誤差が,データセット間での運用上の相違(OntoNotes,PreCo,Winogrande)にどの程度関連しているかを検討する。
具体的には,コレファレンスや複合修飾子,コプラ述語など,複数のタイプのコレファレンスに対応するカテゴリにモデル性能を区別し,分類する。
このブレークダウンは、さまざまなコリファレンスタイプを一般化する能力において、最先端のモデルがどのように変化するかを調べるのに役立ちます。
例えば、実験では、OntoNotesでトレーニングされたモデルでは、PreCoの一般的な言及やコプラ述語が不十分です。
我々の研究は、現在のコア参照解決モデルの予測を校正するのに役立ち、将来の研究は、モデルを開発する際の一般化の低さと経験的に結びついているようなコア参照のタイプを明示的に説明できる。
関連論文リスト
- Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness [16.677541058361218]
本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
以上の結果から,特定のモデルタイプがすべての次元で良好に機能することが示され,複数の次元に沿って評価されたモデルを選択する際のトレードオフの種類が示される。
論文 参考訳(メタデータ) (2021-09-29T18:21:19Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。