論文の概要: An Analysis of Dataset Overlap on Winograd-Style Tasks
- arxiv url: http://arxiv.org/abs/2011.04767v1
- Date: Mon, 9 Nov 2020 21:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 23:58:42.818460
- Title: An Analysis of Dataset Overlap on Winograd-Style Tasks
- Title(参考訳): Winograd-Styleタスクにおけるデータセットオーバーラップの解析
- Authors: Ali Emami, Adam Trischler, Kaheer Suleman and Jackie Chi Kit Cheung
- Abstract要約: 本稿では,WSC型タスクにおける学習コーパスとテストインスタンスの重複度の違いの影響を解析する。
KnowRef-60Kは、WSCスタイルの常識推論において、これまでで最大のコーパスである。
- 参考スコア(独自算出の注目度): 40.27778524078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Winograd Schema Challenge (WSC) and variants inspired by it have become
important benchmarks for common-sense reasoning (CSR). Model performance on the
WSC has quickly progressed from chance-level to near-human using neural
language models trained on massive corpora. In this paper, we analyze the
effects of varying degrees of overlap between these training corpora and the
test instances in WSC-style tasks. We find that a large number of test
instances overlap considerably with the corpora on which state-of-the-art
models are (pre)trained, and that a significant drop in classification accuracy
occurs when we evaluate models on instances with minimal overlap. Based on
these results, we develop the KnowRef-60K dataset, which consists of over 60k
pronoun disambiguation problems scraped from web data. KnowRef-60K is the
largest corpus to date for WSC-style common-sense reasoning and exhibits a
significantly lower proportion of overlaps with current pretraining corpora.
- Abstract(参考訳): Winograd Schema Challenge (WSC)とそれに触発された変種は、常識推論(CSR)の重要なベンチマークとなっている。
WSCのモデル性能は、巨大なコーパスで訓練されたニューラルネットワークモデルを使用して、チャンスレベルからほぼ人間に急速に進歩している。
本稿では,wsc型タスクにおけるトレーニングコーパスとテストインスタンスの重なりの程度の違いが与える影響について分析する。
多くのテストインスタンスが、最先端モデルが(事前)訓練されているコーパスとかなり重なり合っており、最小重なりのインスタンス上でモデルを評価すると、分類精度が著しく低下することがわかった。
これらの結果をもとに, web データから抽出した 60k 代名詞不曖昧化問題からなる knowref-60k データセットを開発した。
knowref-60kは、wscスタイルのコモンセンス推論でこれまでで最大のコーパスであり、現在のプレトレーニングコーパスとの重なりがかなり低い。
関連論文リスト
- Trapped in texture bias? A large scale comparison of deep instance
segmentation [4.2603120588176635]
61バージョンのMS COCOを68モデル評価し,4148個の評価を行った。
YOLACT++、SOTR、SOLOv2は、他のフレームワークよりも、配布外テクスチャに対してはるかに堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-01-17T10:21:08Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Model Rectification via Unknown Unknowns Extraction from Deployment
Samples [8.0497115494227]
本稿では, 訓練後のモデル修正を, 教師付き方式で実施することを目的とした, 汎用的なアルゴリズムフレームワークを提案する。
RTSCVは未知の未知(u.u.s)を抽出する
RTSCVは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-08T11:46:19Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - Adaptive Name Entity Recognition under Highly Unbalanced Data [5.575448433529451]
我々は,2方向LSTM (BI-LSTM) 上に積み重ねた条件付きランダムフィールド (CRF) 層からなるニューラルアーキテクチャについて実験を行った。
WeakクラスとStrongクラスを2つの異なるセットに分割し、各セットのパフォーマンスを最適化するために2つのBi-LSTM-CRFモデルを適切に設計するアドオン分類モデルを提案する。
論文 参考訳(メタデータ) (2020-03-10T06:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。