論文の概要: The Validity of Evaluation Results: Assessing Concurrence Across
Compositionality Benchmarks
- arxiv url: http://arxiv.org/abs/2310.17514v1
- Date: Thu, 26 Oct 2023 16:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:15:31.249161
- Title: The Validity of Evaluation Results: Assessing Concurrence Across
Compositionality Benchmarks
- Title(参考訳): 評価結果の妥当性:構成性ベンチマークによる一致度の評価
- Authors: Kaiser Sun, Adina Williams, Dieuwke Hupkes
- Abstract要約: 本研究では,4つのデータセットにまたがる6つのモデリング手法の性能について検討した。
この結果から,一般的な評価データセットが測定対象を計測するかどうかを評価する上で,まだ多くの作業が続けられていることが示された。
- 参考スコア(独自算出の注目度): 27.83907050770602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP models have progressed drastically in recent years, according to numerous
datasets proposed to evaluate performance. Questions remain, however, about how
particular dataset design choices may impact the conclusions we draw about
model capabilities. In this work, we investigate this question in the domain of
compositional generalization. We examine the performance of six modeling
approaches across 4 datasets, split according to 8 compositional splitting
strategies, ranking models by 18 compositional generalization splits in total.
Our results show that: i) the datasets, although all designed to evaluate
compositional generalization, rank modeling approaches differently; ii)
datasets generated by humans align better with each other than they with
synthetic datasets, or than synthetic datasets among themselves; iii)
generally, whether datasets are sampled from the same source is more predictive
of the resulting model ranking than whether they maintain the same
interpretation of compositionality; and iv) which lexical items are used in the
data can strongly impact conclusions. Overall, our results demonstrate that
much work remains to be done when it comes to assessing whether popular
evaluation datasets measure what they intend to measure, and suggest that
elucidating more rigorous standards for establishing the validity of evaluation
sets could benefit the field.
- Abstract(参考訳): 性能を評価するために提案された多くのデータセットによると、近年NLPモデルは大幅に進歩している。
しかしながら、データセット設計の選択がモデル機能に関する結論にどのように影響するか、という疑問は残る。
本研究では,構成一般化領域におけるこの問題について考察する。
4つのデータセットにまたがる6つのモデリング手法の性能について検討し、8つの合成分割戦略に従って分割し、合計18の合成一般化分割によるランク付けモデルについて検討した。
結果はこう示しています
一 構成一般化を評価するために考案されたデータセットであって、階数モデリングのアプローチが異なるもの
二 人間が生成したデータセットは、合成データセット又は合成データセットよりも、互いによく連携する。
三 概して、同じソースからデータセットをサンプリングしたか否かは、同じ構成性の解釈を維持しているか否かより、結果のモデルランキングの予測力が高い。
四 データに語彙項目を使用するものは、結論に強く影響を及ぼすことができる。
全体として,人気のある評価データセットが計測対象を計測するかどうかを評価する上では,多くの作業が継続され,評価セットの妥当性を確立するためのより厳格な基準を明らかにすることがこの分野に有益であることが示唆された。
関連論文リスト
- On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - Model-based Clustering of Individuals' Ecological Momentary Assessment
Time-series Data for Improving Forecasting Performance [5.312303275762104]
類似した個人の追加情報は、これらのモデルを強化し、より良い個人の説明につながる可能性が高いと考えられている。
2つのモデルに基づくクラスタリング手法について検討し、まずパーソナライズされたモデルのモデル抽出パラメータを用いた。
クラスタリングに基づく手法の優位性が確認され、グループベースの情報の利用により、すべての個人データの全体的なパフォーマンスが効果的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-11T13:39:04Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation [4.339613097080119]
低リソースのシナリオでは、データコレクションのアーティファクトは、外れ値のデータセットを生成できるため、モデルパフォーマンスに関する結論が一致している可能性がある。
パラメータ化の異なるモデルの3つのクラスを比較し、11の言語から6つの言語ファミリーのデータを抽出する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
論文 参考訳(メタデータ) (2022-01-05T22:19:10Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。