In this paper, we ask the research question of whether all the datasets in
the benchmark are necessary. We approach this by first characterizing the
distinguishability of datasets when comparing different systems. Experiments on
9 datasets and 36 systems show that several existing benchmark datasets
contribute little to discriminating top-scoring systems, while those less used
datasets exhibit impressive discriminative power. We further, taking the text
classification task as a case study, investigate the possibility of predicting
dataset discrimination based on its properties (e.g., average sentence length).
Our preliminary experiments promisingly show that given a sufficient number of
training experimental records, a meaningful predictor can be learned to
estimate dataset discrimination over unseen datasets. We released all datasets
with features explored in this work on DataLab:
\url{https://datalab.nlpe dia.ai}.
A Pilot Study of Dataset Evaluation for Text Classification
テキスト分類のためのデータセット評価の試み
0.70
Yang Xiao1,
Yang Xiao1
0.39
Jinlan Fu2∗, See-Kiong Ng2, Pengfei Liu3
ジンランfu2∗,see-kiong ng2,pengfei liu3
0.54
1Fudan University, 2National University of Singapore, 3Carnegie Mellon University
1ふだん大学、シンガポール国立大学、3カーネギーメロン大学
0.81
yangxiaocq12@gmail.c om, {jinlan,seekiong}@nus.edu.sg, pliu3@cs.cmu.edu
yangxiaocq12@gmail.c om, {jinlan,seekiong}@nus.edu.sg, pliu3@cs.cmu.edu
0.34
2 2 0 2 y a M 4
2 2 0 2 y a M 4
0.43
] L C . s c [ 1 v 9 2 1 2 0
]LC。 sc [ 1 v 9 2 1 2 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract In this paper, we ask the research question of whether all the datasets in the benchmark are necessary.
概要 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
0.53
We approach this by first characterizing the distinguishability of datasets when comparing different systems.
まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。
0.66
Experiments on 9 datasets and 36 systems show that several existing benchmark datasets contribute little to discriminating top-scoring systems, while those less used datasets exhibit impressive discriminative power.
We further, taking the text classification task as a case study, investigate the possibility of predicting dataset discrimination based on its properties (e g , average sentence length).
Our preliminary experiments promisingly show that given a sufficient number of training experimental records, a meaningful predictor can be learned to estimate dataset discrimination over unseen datasets.
We released all datasets with features explored in this work on DataLab.
この作業で調査した機能を備えたデータセットをすべてリリースしました。
0.58
1 Introduction 1 In natural language processing (NLP) tasks, there are often datasets that we use as benchmarks against which to evaluate machine learning models, either explicitly defined such as GLUE (Wang et al , 2018) and XTREME (Hu et al , 2020) or implicitly bound to the task (e g , DPedia (Zhang et al , 2015) has become a default dataset for evaluating of text classification systems).
はじめに 1 自然言語処理(NLP)タスクでは、GLUE (Wang et al , 2018) や XTREME (Hu et al , 2020) といった明示的に定義された機械学習モデルを評価するためのベンチマークとして使用するデータセットや、暗黙的にタスクにバインドするデータセット(例えば、DPedia (Zhang et al , 2015) は、テキスト分類システムを評価するデフォルトのデータセットになっています。
0.71
Given this mission, one important feature of a good benchmark dataset is the ability to statistically differentiate diverse systems (Bowman and Dahl, 2021).
このミッションを考えると、優れたベンチマークデータセットの重要な特徴は、さまざまなシステムを統計的に区別する能力である(bowman and dahl, 2021)。
0.74
With large pre-trained models consistently improving state-of-the-art performance on NLP tasks (Devlin et al , 2018; Lewis et al , 2019), the performances of many of them have reached a plateau (Zhong et al , 2020; Fu et al , 2020).
NLPタスクの最先端パフォーマンス(Devlin et al , 2018; Lewis et al , 2019)は、トレーニング済みの大きなモデルによって継続的に改善され、多くのモデルのパフォーマンスが高原に達している(Zhong et al , 2020; Fu et al , 2020)。
0.80
In other words, it is challenging to discriminate a better model using existing datasets (Wang et al , 2019).
言い換えれば、既存のデータセット(Wang et al , 2019)を使ってよりよいモデルを識別することは難しい。
Figure 1: Illustrate different datasets’ distinguishing ability w.r.t top-scoring systems characterized by our measure log(λsva) on text classification and their corresponding citations.
We use the text classification task as a case study and try to answer the following two sub-questions:
テキスト分類タスクをケーススタディとして使用し,以下の2つのサブ質問に回答する。
0.79
RQ1: How can we quantify the distinguishing ability of benchmark datasets?
RQ1: ベンチマークデータセットの区別能力の定量化には,どうすればよいのでしょう?
0.63
To answer this question, we first design measures with varying calculation difficulties (§4) to judge datasets’ discrimination ability based on top-scoring systems’ performances.
By exploring correlations among different measures, we then evaluate how reliable a dataset’s discrimination is when discrimination is calculated solely based on overall results that top-scoring systems have achieved and generalize this measure to other NLP tasks.
Fig 1 illustrates how different text classification datasets are ranked (the bottom one) based on measures devised in this work (a smaller value suggests lower discrimination) and the corresponding citations of these datasets (the upper one).
One can observe that: (i) The highly-cited dataset DBpedia (Zhang et al , 2015) (more than 3,000 times since 2015) shows the worst discriminative power.
それを観察できる。 (i) 高度に暗唱されたデータセットDBpedia(Zhang et al , 2015)は、2015年以来3000倍以上の差別力を示している。
0.63
(ii) By contrast, dataset like ADE (Gurulingappa et al , 2012) (less than 200 times since 2012) does better in distinguishing top-scoring systems, suggesting that some of the relatively neglected datasets are actually valuable in distinguishing models.
(ii)対照的に、ade(gurulingappa et al , 2012)のようなデータセット(2012年以降200回未満)はトップスケーリングシステムの識別に優れており、比較的無視されたデータセットのいくつかは実際にはモデルの識別に有用であることを示唆している。
0.63
This phenomenon SST1CRMRQCIMDBADEATI SYELPDbpedia02,0004, 0006,0008,000#Sample sCitationsSST1CRMRQC IMDBADEATISYelpDbped ia≠1012⁄sva
shows the significance of quantifying the discriminative ability of datasets: it can not only help us to eliminate those with lower discrimination from commonly-used datasets (e g , DBpedia), but also help us to recognize the missing pearl in seldom used datasets (e g , ADE and ATIS (Hemphill et al , 1990)).
データセットの識別能力の定量化の重要性を示す: 一般的に使用されているデータセット(dbpediaなど)から低い差別を持つ人々を排除するのに役立つだけでなく、ほとんど使われていないデータセット(ade、atis(hemphill et al , 1990)におけるパールの欠落を認識するのにも役立つ。
0.75
RQ2: Can we try to predict the discriminative power of the dataset?
RQ2: データセットの識別能力を予測することはできますか?
0.74
Given a dataset, we investigate if we can judge its ability to distinguish models based on its characteristics (e g , average sentence length), which is motivated by the scenario where a new dataset has just been constructed without sufficient top-scoring systems to calculate discrimination defined in RQ1.
To answer this question, inspired by recent literature on performance prediction (Domhan et al , 2015; Turchi et al , 2008; Birch et al , 2008; Xia et al , 2020; Ye et al , 2021), we conceptualize this problem as a discrimination regression task.
最近のパフォーマンス予測に関する文献(Domhan et al , 2015; Turchi et al , 2008; Birch et al , 2008; Xia et al , 2020; Ye et al , 2021)に触発されたこの質問に答えるために、この問題を差別回帰タスクとして概念化する。
0.88
We define 11 diverse features to characterize a text classification dataset and regress its discrimination scores using different parameterized models.
Preliminary experiments (§5.4) indicate that a meaningful regressor can be learned to estimate the discrimination of unseen datasets without actual training using top-scoring systems.
observations: (1) Not all datasets in benchmark are necessary in terms of model selection2: empirical results show that following datasets struggle at discriminating current top-scoring systems: STS-B and SST-2 from GLUE (Wang et al , 2018); BUCC and PAWX-X from XTREME, which is consistent with the concurrent work (Ruder et al , 2021) (§4.3.2).
観察: 1) ベンチマークのすべてのデータセットはモデル選択の観点で必要ではない: 実験的な結果は、以下のデータセットが現在のトップスコアシステムの識別に苦慮していることを示している: GLUE (Wang et al , 2018) のSTS-B と SST-2、XTREMEのBUCC と PAWX-X。
0.74
(2) In regard to single-task benchmark datasets, for Chinese Word Segmentation task, there are multiple datasets (MSR, CityU, CTB) (Tseng et al , 2005; Jin and Chen, 2008) that exhibit much worse discriminative ability, suggesting that: future works on this task are encouraged to either
2) 単一タスクのベンチマークデータセットでは,中国語の単語セグメンテーションタスクには複数のデータセット (MSR, CityU, CTB) (Tseng et al , 2005; Jin and Chen, 2008) が存在する。 訳抜け防止モード: (2 ) 単一のタスクベンチマークデータセットについて。 中国語の単語セグメンテーションタスクには複数のデータセット (MSR, CityU, CTB ) (Tseng et al, 2005 ; Jin and Chen, 2008 ) があり、識別能力はより悪くなっている。 この課題に関する今後の研究は どちらにでも奨励されます
0.70
(i) adopt other datasets to evaluate their systems or
(i)他のデータセットを採用してシステムを評価するか
0.74
(ii) at least make significant test 3 if using these datasets.
(ii)これらのデータセットを使用する場合、少なくとも重要なテスト3を行う。
0.64
Similar observations happen in the dataset CoNLL-2003 (Sang and De Meulder, 2003) from Named Entity Recognition task and MultiNLI
名前付きエンティティ認識タスクとMultiNLIによるデータセットCoNLL-2003(Sang and De Meulder, 2003)での類似の観測
0.85
2Caveat: Annotated datasets are always valuable, because the supervision signals provided there can not only help us directly train a system for specific use case, but also provide good supervised transfer for related tasks (Sanh et al , 2021).
2caveat: 注釈付きデータセットは、特定のユースケースのためにシステムを直接トレーニングするだけでなく、関連するタスク(sanh et al , 2021)に対して優れた教師付き転送を提供するため、常に価値があります。
0.66
3We randomly select 10 recently published papers (from ACL/EMNLP) that utilized these datasets and found only 2 of them perform significant test.
(Williams et al , 2017) from natural language inference task (§4.3.2).
(williams et al , 2017) - 自然言語推論タスク(4.3.2)。
0.74
(3) Some seldom used datasets such as ADE from text classification are actually better at distinguishing top-performing systems, which highlights an interesting and necessary future direction: how to identify infrequently-used but valuable (better discrimination) datasets for NLP tasks, especially in the age of dataset’s proliferation?
4 (§4.2) (4) Quantifying a dataset’s discrimination (w.r.t top-scoring systems) by calculating the statistical measures (defined in §4.1.2) from leaderboard’s results is a straightforward and effective way.
But for those datasets without rich leaderboard results,5 predicting the discrimination based on datasets’ characteristics would be an promising direction (§4.3.1).
All datasets and their features are released on DataLab (Xiao et al , 2022).
すべてのデータセットとその機能はDataLab(Xiao et al , 2022)でリリースされている。
0.78
(3) We study several popular NLP benchmarks, including GLUE, XTREME, NLI, and so on.
(3) GLUE, XTREME, NLIなどのNLPベンチマークについて検討した。
0.47
Some valuable suggestions and observations will make research easier.
貴重な提案や観察によって研究がより容易になる。
0.55
2 Related Work Benchmarks for NLP In order to conveniently keep themselves updated with the research progress, researchers recently are actively building evaluation benchmarks for diverse tasks so that they could make a comprehensive comparison of systems, and use a leaderboard to record the evolving process of the systems of different NLP tasks, such as SQuAD (Rajpurkar et al , 2016), GLUE (Wang et al , 2018), XTREME (Hu et al , 2020), GEM (Gehrmann et al , 2021) and GENIE (Khashabi et al , 2021).
2 関連作業 NLPのベンチマーク 研究の進展に合わせて、研究者は様々なタスクの評価ベンチマークを積極的に構築し、システム全体を総合的に比較し、SQuAD(Rajpurkar et al , 2016)、GLUE(Wang et al , 2018)、XTREME(Hu et al , 2020)、GEM(Gehrmann et al , 2021)、GENIE(Khashabi et al , 2021)といった異なるNLPタスクのシステムの進化過程を記録するためにリーダーボードを使用している。
0.76
Despite their utility, more recently, Bowman and Dahl (2021) highlight that unreliable and biased systems score so highly on standard benchmarks that there is little room for researchers who develop better systems to demonstrate their improvements.
In this paper, we make a pilot study on meta-evaluating benchmark evalu-
本稿では,メタ評価ベンチマーク評価のパイロット研究を行う。
0.77
4https://paperswithc ode.com/datasets 5The measure can keeps updated as the top-scoring systems of the leaderboard evolves, which can broaden its practical applicability
With the recent booming of the number of machine learning models (Goodfellow et al , 2016) and datasets, the technique of performance prediction become rather important when applied to different scenarios ranging from early stopping training iteration (Kolachina et al , 2012), architecture searching (Domhan et al , 2015), and attribution analysis (Birch et al , 2008; Turchi et al , 2008).
最近の機械学習モデル(Goodfellow et al , 2016)とデータセットの急増に伴い、早期停止トレーニングイテレーション(Kolachina et al , 2012)、アーキテクチャ探索(Domhan et al , 2015)、帰属分析(Birch et al , 2008; Turchi et al , 2008)など、さまざまなシナリオに適用された場合、パフォーマンス予測のテクニックがより重要になる。
0.78
In this work, we aim to calculate a dataset’s discrimination without actual training top-scoring systems on it, which can be formulated as a performance prediction problem.
3 Preliminaries 3.1 Task and Dataset Text classification aims to assign a label defined beforehand to a given input document.
3.3 プリミティブ 3.1 Task and Dataset Text 分類は、予め定義されたラベルを所定の入力文書に割り当てることを目的としている。 訳抜け防止モード: 3 予備3.1 タスクとデータセットの分類 予め定義されたラベルを所定の入力文書に割り当てる。
0.84
In the experiment, we choose nine datasets, and their statistics can be found in the Appendix A. • IMDB (Maas et al , 2011) consists of movie re-
実験では,9つのデータセットを選択し,その統計はアペンディックスA. • IMDB (Maas et al , 2011) に収録されている。
0.78
views with binary classes.
バイナリクラスによるビュー。
0.69
• Yelp (Zhang et al , 2015) is a part of the Yelp
・Yelp(Zhang et al , 2015)はYelpの一部。
0.51
Dataset Challenge 2015 data.
Dataset Challenge 2015のデータ。
0.91
• CR (Hu and Liu, 2004) is a product review
•CR(Hu and Liu, 2004)は製品レビューである
0.87
dataset with binary classes.
バイナリクラスによるデータセット。
0.69
• MR (Pang and Lee, 2005) is a movie review
・MR(Pang and Lee, 2005)は、映画レビュー。
0.78
dataset collected from Rotten Tomatoes.
Rotten Tomatoesから収集したデータセット。
0.70
• SST1 (Socher et al , 2013) is collected from HTML files of Rotten Tomatoes reviews with fully labeled parse trees.
• SST1 (Socher et al , 2013) は Rotten Tomatoes レビューの HTML ファイルから完全ラベル付きパースツリーで収集される。
0.86
• DBpedia14 (Zhang et al , 2015) is a dataset for ontology classification collected from DBpedia.
• dbpedia14 (zhang et al , 2015)は、dbpediaから収集されたオントロジー分類のデータセットである。
0.72
• ATIS (Hemphill et al , 1990) is an intent detection dataset that contains audio recordings of flight reservations.
• atis (hemphill et al , 1990) は、フライト予約の音声記録を含む意図検出データセットである。
0.80
• QC (Li and Roth, 2002) is a question classifica-
•QC (Li and Roth, 2002) は問題分類である。
0.89
brief introduction of the four models is as follows.
4つのモデルの簡単な紹介は以下のとおりです。
0.69
• LSTM (Hochreiter and Schmidhuber, 1997) is a widely used sentence encoder.
LSTM (Hochreiter and Schmidhuber, 1997) は広く使われている文エンコーダである。
0.82
Here, we adopt the bidirectional LSTM.
ここでは、双方向LSTMを採用する。
0.71
• LSTMAtt is proposed by Lin et al (2017) that designed the self-attention mechanism to extract different aspects of features for a sentence.
LSTMAttはLin et al (2017)によって提案され、文の特徴の異なる側面を抽出する自己認識機構を設計した。
0.67
• BERT (Devlin et al , 2018) was utilized to fine-
• bert (devlin et al , 2018) を罰金に用いた。
0.56
tuning on our text classification datasets.
テキスト分類データセットをチューニングします
0.72
• CNN is a CNN-based text classification model
• cnn は cnn ベースのテキスト分類モデルである
0.65
(Kim, 2014) was expolred in our work.
(Kim, 2014)が当社の業務に取り入れられた。
0.80
Except for BERT, the other three models (e g LSTM) are initialized by GloVe (Pennington et al , 2014) or Word2Vec (Mikolov et al , 2013) pretrained word embeddings.
BERTを除いて、他の3つのモデル(eg LSTM)はGloVe (Pennington et al , 2014) または Word2Vec (Mikolov et al , 2013) によって初期化されている。
0.82
When the performance on the dev set doesn’t improve within 20 epochs, the training will be stopped, and the best performing model will be kept.
More detailed model parameter settings can be found in the Appendix B.
より詳細なモデルパラメータ設定は、Appendix Bで見ることができる。
0.83
4 How to Characterize Discrimination?
4 差別を特徴付ける方法?
0.76
To achieve this goal, we design measures based on the performance of different models for a dataset.
この目的を達成するために,データセットの異なるモデルの性能に基づく尺度を設計する。
0.86
4.1 Measures We design several measures to judge dataset’s distinguishing ability based on the performances that top-performing systems have achieved on it.7
4.1.2 Scaled Performance Variance For the above measure, it can only reflect the variances of the performance of different models, without considering whether the model’s performance is close to the upper limit (e g , 100% accuracy) on a given data set.
To address this problem, we defined a modified variance by scaling λvar with the difference between the upper limit performance u and average performance Avg(v) of v.
この問題に対処するために,v の上限性能 u と平均性能 avg(v) との差で λvar をスケーリングすることで,変形分散を定義する。
0.82
λsva = λvar(u − Avg(v)).
λsva = λvar(u − avg(v)) である。
0.80
(2) In practice, u can be defined flexibly based on tasks’ metrics.
(2) 実際には、u はタスクのメトリクスに基づいて柔軟に定義できる。
0.75
For example, in text classification task, u could be 100% (w.r.t F1 or accuracy), while in summarization task, u could be the results of oracle sentences (w.r.t ROUGE).
Intuitively, given a performance list on text classification dataset: v = [88, 92, 93], we can obtain the λsva = 23.81.
直感的には、テキスト分類データセットのパフォーマンスリストが与えられた: v = [88, 92, 93] λsva = 23.81 を得ることができる。
0.81
4.1.3 Hit Rate The previous two measures quantify dataset’s discriminative ability w.r.t k top-performing systems in an indirect way (i.g, solely based on the overall results of different models).
However, sometimes, small variance does not necessarily mean that the dataset fail to distinguish models, as long as the difference between models is statistically significant.
To overcome this problem, we borrow the idea of bootstrap-based significant test (Koehn, 2004) and define the measure hit rate, which quantify the degree to which a given dataset could successfully differentiate k top-scoring systems.
この問題を解決するために、bootstrap-based significant test (koehn, 2004) のアイデアを借用し、所定のデータセットがkトップスコーリングシステムをうまく区別できる程度を定量化する測度ヒット率を定義する。
0.74
Specifically, we take all (cid:0)k
具体的には、すべての (cid:0)k
0.72
(cid:1) pairs of systems
(cid:1)対のシステム
0.84
2 (mi and mj) and compare their performances on a subset of test samples Dt that is generated using paired bootstrap re-sampling.
Let vi(D) > vj(D) be the performance of m1 and m2 on the full test set, we define P (mi, mj) as the frequency of vi(Dt) > vj(Dt) over all T times of re-sampling (t = 1,··· , T ).
2 Metric Comparison The first two metrics, performance variance and scaled performance variance, are relative easily to obtain since they only require holistic performances of different top-scoring models on a given dataset, which can be conveniently collected from existing leaderboards.
By 8For example, given a test set with 1000 samples, we
ところで 8 例えば、1000個のサンプルを用いたテストセットの場合、
0.71
sample 80% subset from it and repeat this process T times.
80%のサブセットをサンプリングし、このプロセスをT回繰り返す。
0.80
contrast, although the metric hit rate can directly reflect dataset’s ability in discriminating diverse systems, its calculation not only require more finegrained information of system prediction but also complicated bootstrap re-sampling process.
Variance and Hit Rate The goal of this experiment is to investigate the reliability of the variance-based discrimination measures (e g , λsva), which are easier to obtain, by calculating its correlation with significant test-based measure λhit, which is costly to get.
Since the implementation of λhit relies on the bootstrap-based significant test, we choose text classification as the tested and re-implement 4 classification models (defined in Sec. 3.2) on 9 datasets.
The performance and the distinction degree on the 9 text classification dataset are shown in Tab.
9つのテキスト分類データセットのパフォーマンスと識別度をタブに示す。
0.70
1. λvar and λsva measures are designed based on performance variance, even if BERT always achieves the best performance on the same dataset, it will not affect the observed results from our experiments.
Correlation measure Here, we adopt the Spearman rank correlation coefficient (Zar, 1972) to describe the correlation between our variance-based measures and the hit rate measure λhit.
Result (1) λvar and λsva are strong correlative (Sλ>0.6) with λhit respectively, which suggests that variance-based metrics could be a considerably reliable alternatives of significant test-based metric.
(2) Spearman(λvar, λhit) > Spearman(λsva, λhit), which indicate that comparing with λsva, dataset discrimination characterized by λvar is more acceptable for λhit.
The reason can be attributed to that the designing of the measure λhit does not consider the upper limit of the model’s performance.
その理由は、測度 λhit の設計がモデルの性能の上限を考慮していないからである。
0.64
(3) DPdedia and Yelp are commonly used text classification datasets, while they have the worst ability to discriminate the top-scoring models since they get the lowest value of λvar and λsva.
By contrast, these two seldom used datasets ADE and ATIS show the better discriminative ability.
対照的に、これらの2つのデータセットはADEとATISではほとんど使われていない。
0.50
4.3 Exp-II: Evaluation of Other Benchmarks 4.3.1 Popular Benchmark Datasets We also investigate how benchmark datasets from other NLP task perform using two devised mea-
4.3 Exp-II: Evaluation of Other Benchmarks 4.3.1 Popular Benchmark Datasets 我々はまた、他のNLPタスクからのベンチマークデータセットがどのように機能するかを、2つの考案されたミーアを使って調査した。
9 For the multitask benchmarks, here, the GLUE 10 and XTREME 11 are considered in this work.
9 マルチタスクベンチマークでは、ここではGLUE 10とXTREME 11が検討されている。
0.71
Since Paperswithcode provided 5 models for each dataset in most case, for fairness and uniformity, we keep top-5 models for both single-task and multitask benchmark datasets.
Named Entity Recognition (NER) aims to identify named entities of an input text, for which we choose 5 top-scoring systems on 6 datasets and collect results from Paperswithcode.
Named Entity Recognition (NER) は、入力テキストの名前付きエンティティを識別することを目的としており、6つのデータセット上のトップスコアシステムを選択し、Paperswithcodeから結果を収集する。
0.65
Chinese Word Segmentation (CWS) aims to detect the boundaries of Chinese words in a sentence.
Moreover, these two data sets will be removed from the new version of the XTREME leaderboard called XTREME-R (Ruder et al , 2021).
さらに、これらの2つのデータセットは、XTREME-R(Ruder et al , 2021)と呼ばれるXTREMEリーダーボードの新バージョンから削除される。
0.75
This consistent observation also shows the effectiveness of our measure.
この一貫した観察は、我々の測定の有効性も示している。
0.57
• For GLUE benchmark, CoLA, QQP, and RTE have the excellent ability to distinguish different top-scoring models (with higher λvar and λsva), while the SST-2 and STS-B perform worse.
• For CWS benchmarks, there is a larger gap between the value of λvar and λsva, which indicate that the performance of top-scoring models considered are close to 100%.
The reason can be attributed to contain much annotation errors (Fu et al , 2020) in the CoNLL 2003 dataset, which makes its performance reach the bottleneck.
この理由は、conll 2003データセットに多くのアノテーションエラー(fu et al , 2020)が含まれていることが原因で、パフォーマンスがボトルネックに到達した。
0.63
5 Can we Predict Discrimination?
5 差別を予測できるか?
0.71
Although metrics λvar, λsva ease the burden for us to calculate the datasets’ discrimination, one major limitation is: given a new dataset without results from leaderboards, we need to train multiple topscoring systems and calculate corresponding results on it, which is computationally expensive.
To alleviate this problem, in this section, we focus on text
この問題を解決するため この節では テキストに焦点を合わせます
0.82
英語(論文から抽出)
日本語訳
スコア
err
翻訳エラー
0.00
英語(論文から抽出)
日本語訳
スコア
5.2.2 Lexical Feature Basic English Words Ratio (φbasic): The proportion of words belonging to the 1000 basic English 12 words in the whole dataset.
5.2.2 Lexical Feature Basic English Words Ratio (φbasic): データセット全体の1000の基本的な英語12語に属する単語の割合。
0.90
Type-Token Ratio (φttr): We measure the text lexical richness by the type-token ratio (Richards, 1987) based on the lexical richness tool.
type-token ratio (φttr): lexical richness tool に基づいて、type-token ratio (richards, 1987) によるテキストの語彙豊かさを測定する。
0.77
13 Language Mixedness Ratio (φlmix): To detect the ratio of other languages mixed in the text, we utilize the models proposed by Joulin et al (2016b) for language identification from fastText (Joulin et al , 2016a) which can recognize 176 languages.
13 Language Mixedness Ratio (φlmix): テキストに混在する他の言語の割合を検出するために,Joulin et al (2016b) が提案したモデルを用いて,176言語を認識可能なfastText (Joulin et al , 2016a) の言語識別を行う。
0.88
Pointwise Mutual Information (φpmi): PMI 14 is a measurement to calculate the correlation between variables.
pointwise mutual information (φpmi): pmi 14は変数間の相関を計算するための測定である。
0.84
5.2.3 Semantic Feature Perplexity (φppl): We calculate the perplexity 15 based on GPT2 (Radford et al , 2019) to evaluate the quality of the text.
Grammar Errors Ratio (φgerr): We adopt the detection tool 16 to recognize words with grammatical errors, and then calculate the ratio of grammatical errors.
Grammar Errors Ratio (φgerr):我々は検出ツール16を採用し、文法的誤りのある単語を認識し、文法的誤りの比率を算出する。
0.82
Flesch Reading Ease 17 (φfre): To describe the readability of a text, we introduce the φfre achieving by textstat.
Take average length (φlen) as an example, we compute the average length on training set φtr,len, test set φte,len, and their interaction ((φtr,len − φte,len)/φtr,len)2.
平均長さ (φlen) を例として、訓練集合 φtr,len, test set φte,len, and their interaction ((φtr,len − φte,len)/φtr,len)2 の平均長さを計算する。
0.92
5.3 Parameterized Models The dataset discrimination prediction (ranking) model takes a series of dataset features as the input and then predicts discrimination(rank) based on ˆf (·) (f (·)) defined in Eq 6 (Eq. 7).
XGBoost (Chen and Guestrin, 2016) with gbtree(Hastie et al , 2009) boosting strategy was another ranking model.
XGBoost (Chen and Guestrin, 2016) with gbtree (Hastie et al , 2009) boosting strategyは別のランキングモデルである。
0.92
5.4 Experiments 5.4.1 Data Construction To construct a collection with large amount of discriminative datasets, we randomly select three dataset features (e g average sentence length φlen) to divide the original dataset into several nonoverlapping sub-datasets.
Here, we explored the value of n (defined in §5.1.2) to be 5, 7 and 9 to randomly choose samples from Dtr (or Dte) to construct the datasets for the ranking task, and kept 4200, 600, 1200 samples for training, development and testing set respectively.
5.4.2 Evaluation Metric Regression Task We use RMSE (Chai and Draxler, 2014) and Spearman rank correlation coefficient (Zar, 1972) to evaluate how well the regression model predicts the discriminative ability for datasets.
Ranking Task NDCG (Järvelin and Kekäläinen, 2000) and MAP (Yue et al , 2007) are the evalua-
ランク付けタスク NDCG (Järvelin and Kekäläinen, 2000) とMAP (Yue et al , 2007) は評価項目である。
0.90
英語(論文から抽出)
日本語訳
スコア
tion metric of our ranking task.
ランク付けタスクのタイトメトリック。
0.50
For NDCG, it considers the rank of a set of discriminative abilities.
NDCGでは、識別能力の集合のランクを考える。
0.61
In our setting, every dataset has its own real discriminative ability.
私たちの設定では、すべてのデータセットに独自の識別能力があります。
0.60
Here, We transfer the predicted discriminative ability to the rank of the dataset in the NDCG metric, so we can use NDCG to evaluate the model’s predicted effect.
Here, we set a threshold value of λvar = 3 (λsva = 28) for λvar (λsva) to distinguish the dataset discrimination ability from good (relevant) to bad (irrelevant).
We can observe that: Both the regression models and the ranking models can well describe the discrimination ability of different datasets.
回帰モデルとランキングモデルの両方が、異なるデータセットの識別能力をうまく記述することができます。
0.66
For these four regression models, the prediction is highly correlated with the ground truth (with a correlation value larger than 0.6), passing the significance testing (p < 0.05).
We observe that: (1) The most influential features are φpmi, φlen, and φfre, which come from the lexical, inherent, and semantic features, respectively.
This indicated that the LightGBM can extract features from different aspects to make predictions.
これはLightGBMが様々な側面から特徴を抽出して予測できることを示している。
0.61
(2) In the perspective of feature groups, the semantic features are more influential than the inherent features and lexical features.
2)特徴群の観点からは,意味的特徴は本質的特徴や語彙的特徴よりも影響が大きい。
0.76
6 Discussion & Implications Discussion Given a leaderboard of a dataset, metrics explored in this paper can be easily used to calculate its discrimination, while some limitations still exist.
We make some discussion below to encourage more explorations on new measures:
以下に、新たな対策のさらなる探究を促すための議論を行う。
0.72
(a) Interpretability: current metrics can only identify which datasets are of lower indiscriminability while don’t present more explanation why it is the case.
(b) Functionality: a dataset with lower discrimination doesn’t mean it’s useless since the supervision signals provided there can not only help us directly train a system for the specific use case but also provide good supervised transfer for related tasks.
b) 機能性: 識別率の低いデータセットは、特定のユースケースに対してシステムを直接訓練するだけでなく、関連するタスクに対して優れた教師付き転送を提供するため、役に立たないという意味ではない。
0.75
Metrics designed in this work focus on the role of discriminating models.
この研究で設計されたメトリクスは、モデルを識別する役割に焦点を当てている。
0.53
Calls Based on observations obtained from this paper, we make the following calls for future research: (1) Datasets’ discrimination ability w.r.t top-scoring systems could be included in the dataset schema (such as dataset statement (Bender and Friedman, 2018)), which would allow researchers to gain a saturated understanding of the dataset.
1)データセットの識別能力w.r.tトップスコアシステムはデータセットスキーマ(データセットステートメント(Bender and Friedman, 2018)など)に含まれることができ、研究者はデータセットの飽和した理解を得ることができる。
report the discriminative ability of the datasets they aim to include.
対象とするデータセットの識別能力を報告します
0.57
(3) Seldom used datasets are also valuable for model selection, and a more fair dataset searching system should be investigated, for example, relevance- and scientifically meaningful first, instead of other biases, like popularity.
Acknowledgements We would like to thank Graham Neubig and the anonymous reviewers for their valuable comments.
承認 Graham Neubig氏と匿名のレビュアーたちに、貴重なコメントを感謝します。
0.69
This work was supported by the National Research Foundation of Singapore under its Industry Alignment Fund – Pre-positioning (IAF-PP) Funding Initiative.
この研究は、シンガポールの産業調整基金、IAF-PPファンド・イニシアティブによって支援された。
0.55
Any opinions, findings, conclusions, or recommendations expressed in this material are those of the authors and do not reflect the views of the National Research Foundation of Singapore.
In Twenty-Fourth International Joint Conference on Artificial Intelligence.
第20回人工知能国際会議に参加して
0.65
Jerome H Friedman.
ジェローム・h・フリードマン
0.59
2001. Greedy function approximation: a gradient boosting machine.
2001. グリーディ関数近似:勾配促進機。
0.54
Annals of statistics, pages 1189–1232.
統計学』 1189-1232頁。
0.68
Jinlan Fu, Pengfei Liu, and Qi Zhang.
ジンランフー、pengfei liu、qi zhang。
0.39
2020. Rethinking generalization of neural models: A named enIn The Thirty-Fourth tity recognition case study.
2020. ニューラルモデルの一般化再考:第34回ティリティ認識ケーススタディにおける名前の由来
0.58
AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 7732–7739.
AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, page 7732–7739。
0.47
AAAI Press.
aaai press所属。
0.47
Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh D Dhole, et al 2021.
Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh Dhole, et al 2021
0.39
The gem benchmark: Natural language generation, its evaluation and metrics.
gemベンチマーク: 自然言語の生成、評価、メトリクス。
0.62
arXiv preprint arXiv:2102.01672.
arXiv preprint arXiv:2102.01672
0.36
Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル。
0.44
2016. Deep Learning.
2016. ディープラーニング。
0.41
MIT Press. http://www.
mitプレス。 http://www.com。
0.49
deeplearningbook.org .
deeplearningbook.org 所属。
0.52
Harsha Gurulingappa, Abdul Mateen Rajput, Angus Roberts, Juliane Fluck, Martin Hofmann-Apitius, and Luca Toldo.
Harsha Gurulingappa, Abdul Mateen Rajput, Angus Roberts, Juliane Fluck, Martin Hofmann-Apitius, Luca Toldo
0.39
2012. Development of a benchmark corpus to support the automatic extraction of drugrelated adverse effects from medical case reports.
2012. 医療事例報告からの薬物関連副作用の自動抽出を支援するベンチマークコーパスの開発
0.52
Journal of Biomedical Informatics, 45(5):885–892.
Journal of Biomedical Informatics, 45(5):885–892
0.47
Text Mining and Natural Language Processing in Pharmacogenomics.
薬理ゲノミクスにおけるテキストマイニングと自然言語処理
0.74
Trevor Hastie, Robert Tibshirani, and Jerome Friedman.
トレバー・ハスティ、ロバート・ティブズラーニ、ジェローム・フリードマン。
0.56
2009. Boosting and Additive Trees, pages 337–387.
2009. 増木・増木、337-387頁。
0.47
Springer New York, New York, NY.
ニューヨーク、ニューヨーク、ニューヨーク。
0.44
Charles T Hemphill, John J Godfrey, and George R Doddington.
チャールズ・T・ヘンフィル、ジョン・J・ゴドフリー、ジョージ・R・ドディントン。
0.59
1990. The atis spoken language systems pilot corpus.
1990. atis音声言語システムパイロットコーパス。
0.49
In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990.
In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990 訳抜け防止モード: 言葉と自然言語 : ペンシルベニア州ヒドゥン・バレーで開かれたワークショップの議事録 June 24 - 27 , 1990 .
0.73
Sepp Hochreiter and Jürgen Schmidhuber.
Sepp HochreiterとJürgen Schmidhuber。
0.37
1997. Neural computation,
1997. 神経計算
0.43
Long short-term memory. 9(8):1735–1780.
短期記憶。 9(8):1735–1780.
0.34
Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, and Melvin Johnson.
Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson
0.35
2020. XTREME: A massively multilingual multitask benchmark for evaluating cross-lingual generalization.
2020. XTREME: 言語間一般化を評価するための多言語マルチタスクベンチマーク。
0.55
CoRR, abs/2003.11080.
corr、abs/2003.11080。
0.42
Minqing Hu and Bing Liu.
Minqing HuとBing Liu。
0.37
2004. Mining and sumIn Proceedings of the marizing customer reviews.
2004. マイニングと要約 顧客のレビューを熟成する過程。
0.53
Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, page 168–177, New York, NY, USA.
10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, page 168–177, New York, NY, USA 訳抜け防止モード: 第10回知識発見・データマイニング国際会議 KDD ’04, page 168–177, New York, NY, USA.
0.69
Association for Computing Machinery.
アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。
0.36
Kalervo Järvelin and Jaana Kekäläinen.
Kalervo JärvelinとJaana Kekäläinen。
0.39
2000. IR evaluation methods for retrieving highly relevant documents.
2000. 高関連文書検索のためのIR評価方法
0.58
In SIGIR 2000: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, July 24-28, 2000, Athens, Greece, pages 41–48.
SIGIR 2000: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, July 24-28, 2000, Athens, Greece, page 41-48 訳抜け防止モード: SIGIR 2000に参加して : 第23回国際情報検索研究会議に参加して 2000年7月24日 - 28日、ギリシャのアテネ、41-48頁。
0.68
ACM.
acm。
0.63
英語(論文から抽出)
日本語訳
スコア
Guangjin Jin and Xiao Chen.
広神晋と陳Xiao氏。
0.57
2008. The fourth international chinese language processing bakeoff: Chinese word segmentation, named entity recognition and chinese pos tagging.
2016a. Fasttext.zip: Compressing text classification models.
2016年。 Fasttext.zip: テキスト分類モデルを圧縮する。
0.73
arXiv preprint arXiv:1612.03651.
arXiv preprint arXiv:1612.03651
0.34
Armand Joulin, Edouard Grave, Piotr Bojanowski, Bag of tricks arXiv preprint
Armand Joulin, Eduard Grave, Piotr Bojanowski, Bag of trick arXiv preprint
0.41
and Tomas Mikolov.
そして、Tomas Mikolov。
0.67
2016b. for efficient text classification.
2016年。 効率的なテキスト分類に役立ちます
0.67
arXiv:1607.01759.
arXiv:1607.01759。
0.25
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu.
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu 訳抜け防止モード: guolin ke, qi meng, thomas finley, taifeng wang。 wei chen, weidong ma, qiwei ye, and tie - ヤン・リウ。
0.64
2017. Lightgbm: A highly efficient gradient boostIn Advances in Neural Informaing decision tree.
2017. lightgbm: 神経情報伝達決定木における高度に効率的な勾配ブースチンの進歩。
0.51
tion Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 3146–3154.
tion processing systems 30: annual conference on neural information processing systems 2017年12月4-9日、2017年ロングビーチ、米国、3146-3154ページ。
0.84
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A Smith, and Daniel S Weld.
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A Smith, Daniel S Weld 訳抜け防止モード: Daniel Khashabi、Gabriel Stanovsky、Jonathan Bragg、Nicholas Lourie 加西順吾、チェイエジン、ノア・A・スミス、ダニエル・S・ウェルド。
0.70
2021. Genie: A leaderboard for human-in-the-loop evaluation of text generation.
2021. Genie: テキスト生成のヒューマン・イン・ザ・ループ評価のためのリーダーボード。
0.47
arXiv preprint arXiv:2101.06561.
arXiv preprint arXiv:2101.06561
0.35
Yoon Kim. 2014.
キム・ユン 2014.
0.46
Convolutional neural networks for
畳み込みニューラルネットワーク
0.50
sentence classification. CoRR, abs/1408.5882.
文の分類。 CoRR, abs/1408.5882。
0.50
Philipp Koehn. 2004.
フィリップ・コーン 2004.
0.48
Statistical significance tests In Proceedfor machine translation evaluation.
機械翻訳評価における統計的意義試験
0.80
ings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 388– 395, Barcelona, Spain.
2004年、スペイン・バルセロナの自然言語処理に関する実証的手法に関する会議、388-395頁。
0.75
Association for Computational Linguistics. Prasanth Kolachina, Nicola Cancedda, Marc Dymetman, and Sriram Venkatapathy.
2012. Prediction of learning curves in machine translation.
2012. 機械翻訳における学習曲線の予測
0.62
In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22–30, Jeju Island, Korea.
第50回計算言語学会年次大会(第1巻:長い論文)において、韓国・済州島22-30頁。
0.55
Association for Computational Linguistics. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer.
計算言語学会会員。 Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov、Luke Zettlemoyer。
0.44
2019. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension.
2019. bart: 自然言語の生成、翻訳、理解のためのシーケンスからシーケンスへの事前学習。
0.52
ArXiv, abs/1910.13461.
ArXiv, abs/1910.13461。
0.61
Xin Li and Dan Roth.
シン・リーとダン・ロス
0.49
2002. Learning question clasIn COLING 2002: The 19th International
2002. 2002年「第19回国際会議」に参加して
0.44
sifiers. Conference on Computational Linguistics.
sifiers. 専門は計算言語学。
0.47
Tie-Yan Liu.
Tie-Yan Liu
0.40
2011. Learning to rank for information
2011. 情報のランク付けを学ぶ
0.65
retrieval. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts.
検索。 Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。
0.70
2011. Learning word vectors for sentiment analysis.
2011. 感情分析のための単語ベクトルの学習
0.60
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA.
第49回計算言語学会年次総会の議事録:人間言語技術142-150ページ、オレゴン州ポートランド。
0.56
Association for Computational Linguistics. Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean.
計算言語学会会員。 Tomás Mikolov、Ilya Sutskever、Kai Chen、Gregory S. Corrado、Jeffrey Dean。
0.44
2013. Distributed representations of words and phrases and their comIn Advances in Neural Information positionality.
2013. 単語と句の分散表現とそれらのコミンは、神経情報ポジショナリティにおいて進歩する。
0.46
Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013.
第26回ニューラル情報処理システムに関する第27回年次大会
0.60
Proceedings of a meeting held December 5-8, 2013, Lake Tahoe, Nevada, United States, pages 3111– 3119.
2013年12月5日-8日にネバダ州タホ湖で行われた会合の議事録3111-3119頁。
0.53
Bo Pang and Lillian Lee.
ボ・パンとリリアン・リー。
0.46
2005. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.
2005. 星を見る: 評価尺度に対する感情分類のためのクラス関係の爆発。
0.61
CoRR, abs/cs/0506075.
CoRR, abs/cs/0506075。
0.30
Jeffrey Pennington, Richard Socher, and Christopher D. Manning.
ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。
0.57
2014. Glove: Global vectors for word representation.
2014. glove: 単語表現のためのグローバルベクトル。
0.63
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, October 25-29, 2014, Doha, Qatar, A meeting of SIGDAT, a Special Interest Group of the ACL, pages 1532–1543.
2014年の自然言語処理における経験的手法に関する会議(emnlp 2014, october 25-29, 2014, doha, qatar, a meeting of sigdat, a special interest group of the acl, pages 1532–1543)の議事録。
0.80
ACL. Leif E Peterson.
ACL。 リーフ・e・ピーターソン
0.44
2009. K-nearest neighbor.
2009. kネアレストの隣人。
0.47
Scholarpe- dia, 4(2):1883.
学者- ディア 4(2):1883
0.62
John Ross Quinlan.
ジョン・ロス・クインラン
0.49
1990. Probabilistic decision trees.
1990. 確率的決定木。
0.39
In Machine Learning, pages 140–152.
機械学習では140-152ページ。
0.83
Elsevier. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever.
Association for Computational Linguistics. Brian Richards.
計算言語学会会員。 ブライアン・リチャーズ。
0.54
1987. Type/token ratios: what do Journal of Child Language,
1987. タイプ/トークン比:Journal of Child Languageとは何か?
0.51
they really tell us?
本当に話してくれるの?
0.51
14(2):201–209.
14(2):201–209.
0.41
Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Graham Neubig, and Melvin Johnson.
Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Graham Neubig, Melvin Johnson 訳抜け防止モード: セバスティアン・ルーダー、ノア・コンスタント、ヤン・ボサ、アディティア・シッダーント Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu グラハム・ノイビッグとメルヴィン・ジョンソン。
0.66
2021. XTREME-R: towards more challenging and nuanced multilingual evaluation.
2021. XTREME-R: より困難でニュアンスのある多言語評価に向けて。
0.50
CoRR, abs/2104.07412.
corr、abs/2104.07412。
0.39
Zhouhan Lin, Minwei Feng, Cícero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio.
周範林、ミンウェイ・フェン、cícero nogueira dos santos、mo yu、bing xiang、bowen zhou、yoshua bengio。 訳抜け防止モード: 周ハン・リン、ミンウェイ・フェン、cícero nogueira dos santos、モ・ユ、 bing xiang氏、bowen zhou氏、yoshua bengio氏。
0.65
2017. A structured self-attentive sentence embedding.
2017. 構造化自己注意文の埋め込み
0.49
CoRR, abs/1703.03130.
corr、abs/1703.03130。
0.41
Erik F Sang and Fien De Meulder.
Erik F SangとFien De Meulder。
0.40
2003. Introduction to the conll-2003 shared task: LanguagearXiv independent named entity recognition.
2021. Towards more fine-grained and reliable NLP performance prediction.
2021. より微細で信頼性の高いNLPパフォーマンス予測を実現する。
0.50
In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3703–3714, Online.
The 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, page 3703–3714, Online
0.38
Association for Computational Linguistics. Yisong Yue, Thomas Finley, Filip Radlinski, and Thorsten Joachims.
計算言語学会会員。 Yisong Yue, Thomas Finley, Filip Radlinski, Thorsten Joachims
0.42
2007. A support vector method In SIGIR 2007: for optimizing average precision.
2007. サポートベクトル法 SIGIR 2007: 平均精度を最適化する。
0.59
Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands, July 23-27, 2007, pages 271–278.
Association for Computational Linguistics. Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al 2021.
計算言語学会会員。 Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al 2021 訳抜け防止モード: 計算言語学会会員。 ヴィクター・サン、アルバート・ウェブソン、コリン・ラフフェル、スティーブン・h・バッハ lintang sutawika, zaid alyafeai, antoine chaffin, arnaud stiegler 原題はteven le scao, arun raja, et al 2021。
0.59
Multitask prompted training enables zero-shot task generalization.
マルチタスク起動トレーニングは、ゼロショットタスクの一般化を可能にする。
0.45
arXiv preprint arXiv:2110.08207.
arXiv preprint arXiv:2110.08207
0.36
Claude E Shannon.
クロード・e・シャノン
0.34
1948. A mathematical theory of communication.
1948. コミュニケーションの数学的理論。
0.59
The Bell system technical journal, 27(3):379–423.
ベル・システム・テクニカル・ジャーナル、27(3):379-423。
0.58
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts.
Richard Socher、Alex Perelygin、Jean Wu、Jason Chuang、Christopher D. Manning、Andrew Ng、Christopher Potts。
0.76
2013. Recursive deep models for semantic compositionality over a sentiment treeIn Proceedings of the 2013 Conference on bank.
2013. 感情木上の意味的構成性の再帰的深層モデル 銀行に関する2013年会議の成果
0.58
Empirical Methods in Natural Language Processing, pages 1631–1642, Seattle, Washington, USA.
自然言語処理における経験的手法 1631-1642頁、ワシントン州シアトル。
0.68
Association for Computational Linguistics. Johan AK Suykens and Joos Vandewalle.
計算言語学会会員。 Johan AK SuykensとJoos Vandewalle。
0.46
1999. Least squares support vector machine classifiers.
1999. 最小二乗はベクトル機械分類器をサポートする。
0.68
Neural processing letters, 9(3):293–300.
ニューラル処理文字 9(3):293-300。
0.76
Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, and Christopher Manning.
Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, Christopher Manning
0.34
2005. A conditional random field word segmenter for sighan bakeIn Proceedings of the fourth SIGHAN off 2005.
workshop on Chinese language Processing, volume 171.
中国語処理ワークショップ(第171巻)
0.61
Marco Turchi, Tijl De Bie, and Nello Cristianini.
Marco Turchi、Tijl De Bie、Nello Cristianini。
0.65
2008. Learning performance of a machine translation system: a statistical and computational analysis.
2008. 機械翻訳システムの学習性能:統計解析と計算解析
0.54
In Proceedings of the Third Workshop on Statistical Machine Translation, pages 35–43.
第3回統計機械翻訳研究会第35-43頁。
0.58
Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman.
Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R Bowman 訳抜け防止モード: Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・R・ボウマン。
0.75
2019. Superglue: A stickier benchmark for general-purpose arXiv preprint language understanding systems.
Inherent Feature C.1 Label balance (φbal): The label balance metric measures the variance between the ideal and the true label distribution: φbal = (ct − cs)/cs, where the ct and cs are the true and ideal label information entropy (Shannon, 1948), respectively.
C.2 Lexical Feature Type-Token Ratio (φttr): TTR (Richards, 1987) is a way to measure the documents lexical richness: φttr = ntype/ntoken, where the ntype is the number
of unique words, and ntoken is the number of tokens.
独特な言葉でntokenはトークンの数です
0.56
We use lexical richness 19 to calculate the TTR for each sentence and then average them.
語彙豊か度19を用いて各文のTTRを計算し,平均化する。
0.65
Language Mixedness Ratio (φlmix): The proportion of sentence that contains other languages in the whole dataset.
Language Mixedness Ratio (φlmix): データセット全体に含まれる他の言語を含む文の割合。
0.89
To detect the mixed other languages, we utilize the models proposed by Joulin et al (2016b) for language identification from fastText (Joulin et al , 2016a) which can recognize 176 languages.
混在する他の言語を検出するために,Joulin et al (2016b) が提案したモデルを用いて,176言語を認識可能なfastText (Joulin et al , 2016a) の言語識別を行う。
0.80
Pointwise Mutual Information (φpmi): is a measurement to calculate the correlation between variables.
pointwise mutual information (φpmi): 変数間の相関を計算するための測定である。
0.88
Specifically, for a word in one class φpmi(c,w) = log( p(c,w) p(c)p(w) ), where p(c) is the proportion of the tokens belonging to label c, p(w) is the proportion of the word w, and p(c, w) is the proportion of the word w which belongs to class c.
具体的には、1つのクラス φpmi(c,w) = log(p(c,w) p(c)p(w)) ここで p(c) はラベル c に属するトークンの比率、p(w) は単語 w の比率、p(c,w) はクラス c に属する単語 w の比率である。 訳抜け防止モード: 具体的には、あるクラスの単語に対して φpmi(c, w ) = log(p(c, w) である。 w ) p(c)p(w ) , ここで p(c ) はラベル c に属するトークンの比率、p(w ) は単語 w の比率である。 p(c , w ) はクラス c に属する単語 w の比率である。
0.75
For every class, all the φpmi(c,w), larger than zero, are added to get the sum, which serve as the dataset’s pmi.
Finally,φpmi is calculated by dividing the sum by the numbers of pairs(c,w) of the train dataset.
最後に、φpmiは列車データセットのペア数(c,w)で和を割ることで計算される。
0.70
We pick up the top-ten words sorted by φpmi(c,w) in all classes, then the ration related to the class-related word(φrpmi) is calculated by dividing the number of samples who contain the top-ten words by the total samples in the train set.
C.3 Semantic Feature Grammar errors ratio (φgerr): The proportion of words with grammatical errors in the whole dataset.
C.3 Semantic Feature Grammar error ratio (φgerr):データセット全体における文法的誤りの単語の割合。
0.73
We adopt the detection tool 20 to recognize words with grammatical errors.
検出ツール20を用いて,文法的誤りのある単語を識別する。
0.70
We first compute the grammar errors ratio for each sentence: n/m, where the n and m denote the number of words with grammatical errors and the number of the token for a sentence, averaging them.
まず,各文の文法誤り率: n/m を計算し,n と m は文法的誤りのある単語数と文のトークン数を表し,平均化する。 訳抜け防止モード: まず,各文の文法誤り率をn/m,n/mで計算する。 n と m は文法上の誤りのある単語の数を表します 文のトークンの数も 平均化してる
0.71
Flesch Reading Ease (φfre): Flesch Reading Ease 21 calculated by textstat 22 is a way to describe the simplicity of a reader who can read a text.
First, we calculate the φfre for each sample, and then average them as the dataset’s feature.
まず、サンプル毎にφfreを計算し、データセットの特徴としてそれらを平均化する。
0.81
Then we pick out the samples whose score below 60, then the ration related to the low score samples(φrfre) is calculated by dividing the number of the picked samples by the total samples in the train set.