論文の概要: Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective
- arxiv url: http://arxiv.org/abs/2303.09092v2
- Date: Tue, 18 Jun 2024 16:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:33:24.023128
- Title: Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective
- Title(参考訳): 基準分解モデルの一般化をめざす課題:測定モデリングの視点から
- Authors: Ian Porada, Alexandra Olteanu, Kaheer Suleman, Adam Trischler, Jackie Chi Kit Cheung,
- Abstract要約: 本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
- 参考スコア(独自算出の注目度): 69.50044040291847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is increasingly common to evaluate the same coreference resolution (CR) model on multiple datasets. Do these multi-dataset evaluations allow us to draw meaningful conclusions about model generalization? Or, do they rather reflect the idiosyncrasies of a particular experimental setup (e.g., the specific datasets used)? To study this, we view evaluation through the lens of measurement modeling, a framework commonly used in the social sciences for analyzing the validity of measurements. By taking this perspective, we show how multi-dataset evaluations risk conflating different factors concerning what, precisely, is being measured. This in turn makes it difficult to draw more generalizable conclusions from these evaluations. For instance, we show that across seven datasets, measurements intended to reflect CR model generalization are often correlated with differences in both how coreference is defined and how it is operationalized; this limits our ability to draw conclusions regarding the ability of CR models to generalize across any singular dimension. We believe the measurement modeling framework provides the needed vocabulary for discussing challenges surrounding what is actually being measured by CR evaluations.
- Abstract(参考訳): 複数のデータセット上で同じコア参照解決(CR)モデルを評価することは、ますます一般的になっている。
これらのマルチデータセット評価により、モデル一般化に関する有意義な結論を導き出せるだろうか?
あるいは、特定の実験的なセットアップ(例えば、使用する特定のデータセット)の慣用的な同期を反映するのでしょうか?
そこで本研究では,測定の妥当性を解析するために社会科学でよく用いられるフレームワークである計測モデリングのレンズを通して評価を行う。
この観点から, マルチデータセット評価が, 正確に測定されている要因を混在させる危険性を示す。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
例えば、7つのデータセットにまたがって、CRモデルの一般化を反映した測定は、コア参照の定義方法と、それがどのように運用されるかの差異とよく相関している。
測定モデルフレームワークはCR評価によって実際に測定されているものを取り巻く課題を議論するために必要な語彙を提供すると考えている。
関連論文リスト
- Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - An Empirical Study of Accuracy, Fairness, Explainability, Distributional
Robustness, and Adversarial Robustness [16.677541058361218]
本稿では、これらの次元に沿った様々な指標のモデルタイプを複数のデータセットで評価するための実証的研究について述べる。
以上の結果から,特定のモデルタイプがすべての次元で良好に機能することが示され,複数の次元に沿って評価されたモデルを選択する際のトレードオフの種類が示される。
論文 参考訳(メタデータ) (2021-09-29T18:21:19Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。