論文の概要、ライセンス

# (参考訳) ベンチマークのデータセットはすべて必要か? テキスト分類のためのデータセット評価の試み [全文訳有]

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification ( http://arxiv.org/abs/2205.02129v1 )

ライセンス: CC BY 4.0
Yang Xiao, Jinlan Fu, See-Kiong Ng, Pengfei Liu(参考訳) 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。 9つのデータセットと36のシステムに関する実験では、既存のベンチマークデータセットがトップスコーリングシステムの識別にほとんど貢献していないことが示されている。 さらに,テキスト分類タスクをケーススタディとして,その特性(平均文長など)に基づいてデータセット識別を予測する可能性について検討する。 我々の予備実験は、十分な数のトレーニング実験記録が与えられた場合、有意義な予測器が未知のデータセットに対するデータセットの識別を推定できることを示す。 この作業で調査した機能を備えたデータセットはすべて、DataLabでリリースしました。

In this paper, we ask the research question of whether all the datasets in the benchmark are necessary. We approach this by first characterizing the distinguishability of datasets when comparing different systems. Experiments on 9 datasets and 36 systems show that several existing benchmark datasets contribute little to discriminating top-scoring systems, while those less used datasets exhibit impressive discriminative power. We further, taking the text classification task as a case study, investigate the possibility of predicting dataset discrimination based on its properties (e.g., average sentence length). Our preliminary experiments promisingly show that given a sufficient number of training experimental records, a meaningful predictor can be learned to estimate dataset discrimination over unseen datasets. We released all datasets with features explored in this work on DataLab: \url{https://datalab.nlpe dia.ai}.
公開日: Wed, 4 May 2022 15:33:00 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Are All the Datasets in Benchmark Necessary? ベンチマークのデータセットはすべて必要か? 0.74
A Pilot Study of Dataset Evaluation for Text Classification テキスト分類のためのデータセット評価の試み 0.70
Yang Xiao1, Yang Xiao1 0.39
Jinlan Fu2∗, See-Kiong Ng2, Pengfei Liu3 ジンランfu2∗,see-kiong ng2,pengfei liu3 0.54
1Fudan University, 2National University of Singapore, 3Carnegie Mellon University 1ふだん大学、シンガポール国立大学、3カーネギーメロン大学 0.81
yangxiaocq12@gmail.c om, {jinlan,seekiong}@nus.edu.sg, pliu3@cs.cmu.edu yangxiaocq12@gmail.c om, {jinlan,seekiong}@nus.edu.sg, pliu3@cs.cmu.edu 0.34
2 2 0 2 y a M 4 2 2 0 2 y a M 4 0.43
] L C . s c [ 1 v 9 2 1 2 0 ]LC。 sc [ 1 v 9 2 1 2 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract In this paper, we ask the research question of whether all the datasets in the benchmark are necessary. 概要 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 0.53
We approach this by first characterizing the distinguishability of datasets when comparing different systems. まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。 0.66
Experiments on 9 datasets and 36 systems show that several existing benchmark datasets contribute little to discriminating top-scoring systems, while those less used datasets exhibit impressive discriminative power. 9つのデータセットと36のシステムに関する実験では、既存のベンチマークデータセットがトップスコーリングシステムの識別にほとんど貢献していないことが示されている。 0.65
We further, taking the text classification task as a case study, investigate the possibility of predicting dataset discrimination based on its properties (e g , average sentence length). さらに,テキスト分類タスクをケーススタディとして,その特性(平均文長など)に基づいてデータセット識別を予測する可能性について検討する。 0.79
Our preliminary experiments promisingly show that given a sufficient number of training experimental records, a meaningful predictor can be learned to estimate dataset discrimination over unseen datasets. 我々の予備実験は、十分な数のトレーニング実験記録が与えられた場合、有意義な予測器が未知のデータセットに対するデータセットの識別を推定できることを示す。 0.63
We released all datasets with features explored in this work on DataLab. この作業で調査した機能を備えたデータセットをすべてリリースしました。 0.58
1 Introduction 1 In natural language processing (NLP) tasks, there are often datasets that we use as benchmarks against which to evaluate machine learning models, either explicitly defined such as GLUE (Wang et al , 2018) and XTREME (Hu et al , 2020) or implicitly bound to the task (e g , DPedia (Zhang et al , 2015) has become a default dataset for evaluating of text classification systems). はじめに 1 自然言語処理(NLP)タスクでは、GLUE (Wang et al , 2018) や XTREME (Hu et al , 2020) といった明示的に定義された機械学習モデルを評価するためのベンチマークとして使用するデータセットや、暗黙的にタスクにバインドするデータセット(例えば、DPedia (Zhang et al , 2015) は、テキスト分類システムを評価するデフォルトのデータセットになっています。 0.71
Given this mission, one important feature of a good benchmark dataset is the ability to statistically differentiate diverse systems (Bowman and Dahl, 2021). このミッションを考えると、優れたベンチマークデータセットの重要な特徴は、さまざまなシステムを統計的に区別する能力である(bowman and dahl, 2021)。 0.74
With large pre-trained models consistently improving state-of-the-art performance on NLP tasks (Devlin et al , 2018; Lewis et al , 2019), the performances of many of them have reached a plateau (Zhong et al , 2020; Fu et al , 2020). NLPタスクの最先端パフォーマンス(Devlin et al , 2018; Lewis et al , 2019)は、トレーニング済みの大きなモデルによって継続的に改善され、多くのモデルのパフォーマンスが高原に達している(Zhong et al , 2020; Fu et al , 2020)。 0.80
In other words, it is challenging to discriminate a better model using existing datasets (Wang et al , 2019). 言い換えれば、既存のデータセット(Wang et al , 2019)を使ってよりよいモデルを識別することは難しい。 0.76
In this context, we ask the question: この文脈では、私たちはこう問いかけます 0.61
∗Corresponding authors 1https://datalab.nlp edia.ai 1https://datalab.nlp edia.ai 0.23
Figure 1: Illustrate different datasets’ distinguishing ability w.r.t top-scoring systems characterized by our measure log(λsva) on text classification and their corresponding citations. 図1: 異なるデータセットの識別能力w.r.tトップスコーリングシステムを示す テキスト分類とその引用に関する測定log(λsva)によって特徴づけられる。 0.73
are all benchmark’s datasets necessary? ベンチマークのデータセットはすべて必要か? 0.78
We use the text classification task as a case study and try to answer the following two sub-questions: テキスト分類タスクをケーススタディとして使用し,以下の2つのサブ質問に回答する。 0.79
RQ1: How can we quantify the distinguishing ability of benchmark datasets? RQ1: ベンチマークデータセットの区別能力の定量化には,どうすればよいのでしょう? 0.63
To answer this question, we first design measures with varying calculation difficulties (§4) to judge datasets’ discrimination ability based on top-scoring systems’ performances. この質問に答えるために,我々はまず,トップスコーリングシステムの性能に基づいてデータセットの識別能力を判断するために,計算困難度が異なる尺度(4)を設計した。 0.65
By exploring correlations among different measures, we then evaluate how reliable a dataset’s discrimination is when discrimination is calculated solely based on overall results that top-scoring systems have achieved and generalize this measure to other NLP tasks. そこで,各指標間の相関を考察することにより,トップスケーリングシステムが達成した全体結果のみに基づいて,データセットの識別がどの程度信頼できるかを評価し,他のnlpタスクに一般化する。 0.70
Fig 1 illustrates how different text classification datasets are ranked (the bottom one) based on measures devised in this work (a smaller value suggests lower discrimination) and the corresponding citations of these datasets (the upper one). 図1は、本研究で考案された尺度(より小さな値は、より低い差別を示唆する)と、これらのデータセットの対応する引用(上図)に基づいて、テキスト分類データセットの分類方法(下図)を示します。 0.72
One can observe that: (i) The highly-cited dataset DBpedia (Zhang et al , 2015) (more than 3,000 times since 2015) shows the worst discriminative power. それを観察できる。 (i) 高度に暗唱されたデータセットDBpedia(Zhang et al , 2015)は、2015年以来3000倍以上の差別力を示している。 0.63
(ii) By contrast, dataset like ADE (Gurulingappa et al , 2012) (less than 200 times since 2012) does better in distinguishing top-scoring systems, suggesting that some of the relatively neglected datasets are actually valuable in distinguishing models. (ii)対照的に、ade(gurulingappa et al , 2012)のようなデータセット(2012年以降200回未満)はトップスケーリングシステムの識別に優れており、比較的無視されたデータセットのいくつかは実際にはモデルの識別に有用であることを示唆している。 0.63
This phenomenon SST1CRMRQCIMDBADEATI SYELPDbpedia02,0004, 0006,0008,000#Sample sCitationsSST1CRMRQC IMDBADEATISYelpDbped ia≠1012⁄sva この現象は SST1CRMRQCIMDBADEATI SYELPDbpedia02,0006, 0006,000 #SamplesCitationsSST 1CRMRQCIMDBADEATISYe lpDbpedia\1012⁄sva 0.44
英語(論文から抽出)日本語訳スコア
shows the significance of quantifying the discriminative ability of datasets: it can not only help us to eliminate those with lower discrimination from commonly-used datasets (e g , DBpedia), but also help us to recognize the missing pearl in seldom used datasets (e g , ADE and ATIS (Hemphill et al , 1990)). データセットの識別能力の定量化の重要性を示す: 一般的に使用されているデータセット(dbpediaなど)から低い差別を持つ人々を排除するのに役立つだけでなく、ほとんど使われていないデータセット(ade、atis(hemphill et al , 1990)におけるパールの欠落を認識するのにも役立つ。 0.75
RQ2: Can we try to predict the discriminative power of the dataset? RQ2: データセットの識別能力を予測することはできますか? 0.74
Given a dataset, we investigate if we can judge its ability to distinguish models based on its characteristics (e g , average sentence length), which is motivated by the scenario where a new dataset has just been constructed without sufficient top-scoring systems to calculate discrimination defined in RQ1. データセットが与えられた場合、RQ1で定義された識別を計算するのに十分なトップスコアシステムを持たず、新しいデータセットが構築されたシナリオによって動機づけられたモデル(例えば、平均文長)を識別できるかどうかを検討する。 0.77
To answer this question, inspired by recent literature on performance prediction (Domhan et al , 2015; Turchi et al , 2008; Birch et al , 2008; Xia et al , 2020; Ye et al , 2021), we conceptualize this problem as a discrimination regression task. 最近のパフォーマンス予測に関する文献(Domhan et al , 2015; Turchi et al , 2008; Birch et al , 2008; Xia et al , 2020; Ye et al , 2021)に触発されたこの質問に答えるために、この問題を差別回帰タスクとして概念化する。 0.88
We define 11 diverse features to characterize a text classification dataset and regress its discrimination scores using different parameterized models. テキスト分類データセットを特徴付けるために11の多様な特徴を定義し,その識別スコアを異なるパラメータ化モデルを用いて回帰する。 0.69
Preliminary experiments (§5.4) indicate that a meaningful regressor can be learned to estimate the discrimination of unseen datasets without actual training using top-scoring systems. 予備実験 (5.4) では、有意義なレグレッシャが、トップスコーリングシステムを用いた実際のトレーニングなしで、見当たらないデータセットの識別を推定できることが示されている。
訳抜け防止モード: 予備実験 (5.4 ) は有意義なレグレッサーを学習できることを示す トップスコアシステムを用いた実際のトレーニングを行わずに、見当たらないデータセットの識別を推定する。
0.61
We brief takeaways in this work based on our 私たちはこの作品の要約を 0.53
observations: (1) Not all datasets in benchmark are necessary in terms of model selection2: empirical results show that following datasets struggle at discriminating current top-scoring systems: STS-B and SST-2 from GLUE (Wang et al , 2018); BUCC and PAWX-X from XTREME, which is consistent with the concurrent work (Ruder et al , 2021) (§4.3.2). 観察: 1) ベンチマークのすべてのデータセットはモデル選択の観点で必要ではない: 実験的な結果は、以下のデータセットが現在のトップスコアシステムの識別に苦慮していることを示している: GLUE (Wang et al , 2018) のSTS-B と SST-2、XTREMEのBUCC と PAWX-X。 0.74
(2) In regard to single-task benchmark datasets, for Chinese Word Segmentation task, there are multiple datasets (MSR, CityU, CTB) (Tseng et al , 2005; Jin and Chen, 2008) that exhibit much worse discriminative ability, suggesting that: future works on this task are encouraged to either 2) 単一タスクのベンチマークデータセットでは,中国語の単語セグメンテーションタスクには複数のデータセット (MSR, CityU, CTB) (Tseng et al , 2005; Jin and Chen, 2008) が存在する。
訳抜け防止モード: (2 ) 単一のタスクベンチマークデータセットについて。 中国語の単語セグメンテーションタスクには複数のデータセット (MSR, CityU, CTB ) (Tseng et al, 2005 ; Jin and Chen, 2008 ) があり、識別能力はより悪くなっている。 この課題に関する今後の研究は どちらにでも奨励されます
0.70
(i) adopt other datasets to evaluate their systems or (i)他のデータセットを採用してシステムを評価するか 0.74
(ii) at least make significant test 3 if using these datasets. (ii)これらのデータセットを使用する場合、少なくとも重要なテスト3を行う。 0.64
Similar observations happen in the dataset CoNLL-2003 (Sang and De Meulder, 2003) from Named Entity Recognition task and MultiNLI 名前付きエンティティ認識タスクとMultiNLIによるデータセットCoNLL-2003(Sang and De Meulder, 2003)での類似の観測 0.85
2Caveat: Annotated datasets are always valuable, because the supervision signals provided there can not only help us directly train a system for specific use case, but also provide good supervised transfer for related tasks (Sanh et al , 2021). 2caveat: 注釈付きデータセットは、特定のユースケースのためにシステムを直接トレーニングするだけでなく、関連するタスク(sanh et al , 2021)に対して優れた教師付き転送を提供するため、常に価値があります。 0.66
3We randomly select 10 recently published papers (from ACL/EMNLP) that utilized these datasets and found only 2 of them perform significant test. 3我々は、これらのデータセットを利用した最近出版された10の論文(acl/emnlpから)をランダムに選択した。 0.59
(Williams et al , 2017) from natural language inference task (§4.3.2). (williams et al , 2017) - 自然言語推論タスク(4.3.2)。 0.74
(3) Some seldom used datasets such as ADE from text classification are actually better at distinguishing top-performing systems, which highlights an interesting and necessary future direction: how to identify infrequently-used but valuable (better discrimination) datasets for NLP tasks, especially in the age of dataset’s proliferation? (3)テキスト分類からADEのようなほとんど使われていないデータセットは、特にデータセットの拡散の時代において、NLPタスクに頻繁に使われるが、価値のあるデータセットをどうやって識別するかという、興味深い将来的な方向性を強調している。 0.74
4 (§4.2) (4) Quantifying a dataset’s discrimination (w.r.t top-scoring systems) by calculating the statistical measures (defined in §4.1.2) from leaderboard’s results is a straightforward and effective way. 4 (§4.2) (4) リーダーボードの結果から統計測度(4.1.2で定義されている)を計算することでデータセットの識別(トップスコアシステム)を定量化することは、簡単で効果的な方法である。 0.72
But for those datasets without rich leaderboard results,5 predicting the discrimination based on datasets’ characteristics would be an promising direction (§4.3.1). しかし、リッチなリーダーボードのないデータセットでは、データセットの特徴に基づいた差別を予測できる5が有望な方向(4.3.1)となる。 0.60
Our contributions can be summarized as: (1) We try to quantify the discrimination ability for datasets by designing two variance-based measures. 1)2つの分散に基づく尺度を設計することによってデータセットの識別能力を定量化しようと試みる。 0.66
(2) We systematically investigate 4 text classification models on 9 datasets, providing the newest baseline performance for those seldom used datasets. 2)9つのデータセット上の4つのテキスト分類モデルを体系的に検討し,これらのデータセットに対して最新のベースライン性能を提供する。 0.62
All datasets and their features are released on DataLab (Xiao et al , 2022). すべてのデータセットとその機能はDataLab(Xiao et al , 2022)でリリースされている。 0.78
(3) We study several popular NLP benchmarks, including GLUE, XTREME, NLI, and so on. (3) GLUE, XTREME, NLIなどのNLPベンチマークについて検討した。 0.47
Some valuable suggestions and observations will make research easier. 貴重な提案や観察によって研究がより容易になる。 0.55
2 Related Work Benchmarks for NLP In order to conveniently keep themselves updated with the research progress, researchers recently are actively building evaluation benchmarks for diverse tasks so that they could make a comprehensive comparison of systems, and use a leaderboard to record the evolving process of the systems of different NLP tasks, such as SQuAD (Rajpurkar et al , 2016), GLUE (Wang et al , 2018), XTREME (Hu et al , 2020), GEM (Gehrmann et al , 2021) and GENIE (Khashabi et al , 2021). 2 関連作業 NLPのベンチマーク 研究の進展に合わせて、研究者は様々なタスクの評価ベンチマークを積極的に構築し、システム全体を総合的に比較し、SQuAD(Rajpurkar et al , 2016)、GLUE(Wang et al , 2018)、XTREME(Hu et al , 2020)、GEM(Gehrmann et al , 2021)、GENIE(Khashabi et al , 2021)といった異なるNLPタスクのシステムの進化過程を記録するためにリーダーボードを使用している。 0.76
Despite their utility, more recently, Bowman and Dahl (2021) highlight that unreliable and biased systems score so highly on standard benchmarks that there is little room for researchers who develop better systems to demonstrate their improvements. 実用性にもかかわらず、Bowman氏とDahl氏(2021年)は、信頼できない偏見のあるシステムは標準ベンチマークで非常に高く評価されているため、改善を示すより良いシステムを開発する研究者の余地はほとんどない、と強調した。 0.53
In this paper, we make a pilot study on meta-evaluating benchmark evalu- 本稿では,メタ評価ベンチマーク評価のパイロット研究を行う。 0.77
4https://paperswithc ode.com/datasets 5The measure can keeps updated as the top-scoring systems of the leaderboard evolves, which can broaden its practical applicability 4https://paperswithc ode.com/datasets 5この尺度は、リーダーボードのトップスコアシステムが進化するにつれて更新され、実用性を広げることができる。 0.53
英語(論文から抽出)日本語訳スコア
ation datasets and quantitatively characterize their discrimination in different top-scoring systems. ationデータセットは、異なるトップスコーリングシステムにおいて、その識別を定量的に特徴付ける。 0.42
Performance Prediction Performance prediction is the task of estimating a system’s performance without the actual training process. パフォーマンス予測 パフォーマンス予測は、実際のトレーニングプロセスなしでシステムのパフォーマンスを推定するタスクである。 0.82
With the recent booming of the number of machine learning models (Goodfellow et al , 2016) and datasets, the technique of performance prediction become rather important when applied to different scenarios ranging from early stopping training iteration (Kolachina et al , 2012), architecture searching (Domhan et al , 2015), and attribution analysis (Birch et al , 2008; Turchi et al , 2008). 最近の機械学習モデル(Goodfellow et al , 2016)とデータセットの急増に伴い、早期停止トレーニングイテレーション(Kolachina et al , 2012)、アーキテクチャ探索(Domhan et al , 2015)、帰属分析(Birch et al , 2008; Turchi et al , 2008)など、さまざまなシナリオに適用された場合、パフォーマンス予測のテクニックがより重要になる。 0.78
In this work, we aim to calculate a dataset’s discrimination without actual training top-scoring systems on it, which can be formulated as a performance prediction problem. 本研究では,性能予測問題として定式化可能なトップスコーリングシステムを実際にトレーニングすることなく,データセットの識別を計算することを目的とする。 0.76
3 Preliminaries 3.1 Task and Dataset Text classification aims to assign a label defined beforehand to a given input document. 3.3 プリミティブ 3.1 Task and Dataset Text 分類は、予め定義されたラベルを所定の入力文書に割り当てることを目的としている。
訳抜け防止モード: 3 予備3.1 タスクとデータセットの分類 予め定義されたラベルを所定の入力文書に割り当てる。
0.84
In the experiment, we choose nine datasets, and their statistics can be found in the Appendix A. • IMDB (Maas et al , 2011) consists of movie re- 実験では,9つのデータセットを選択し,その統計はアペンディックスA. • IMDB (Maas et al , 2011) に収録されている。 0.78
views with binary classes. バイナリクラスによるビュー。 0.69
• Yelp (Zhang et al , 2015) is a part of the Yelp ・Yelp(Zhang et al , 2015)はYelpの一部。 0.51
Dataset Challenge 2015 data. Dataset Challenge 2015のデータ。 0.91
• CR (Hu and Liu, 2004) is a product review •CR(Hu and Liu, 2004)は製品レビューである 0.87
dataset with binary classes. バイナリクラスによるデータセット。 0.69
• MR (Pang and Lee, 2005) is a movie review ・MR(Pang and Lee, 2005)は、映画レビュー。 0.78
dataset collected from Rotten Tomatoes. Rotten Tomatoesから収集したデータセット。 0.70
• SST1 (Socher et al , 2013) is collected from HTML files of Rotten Tomatoes reviews with fully labeled parse trees. • SST1 (Socher et al , 2013) は Rotten Tomatoes レビューの HTML ファイルから完全ラベル付きパースツリーで収集される。 0.86
• DBpedia14 (Zhang et al , 2015) is a dataset for ontology classification collected from DBpedia. • dbpedia14 (zhang et al , 2015)は、dbpediaから収集されたオントロジー分類のデータセットである。 0.72
• ATIS (Hemphill et al , 1990) is an intent detection dataset that contains audio recordings of flight reservations. • atis (hemphill et al , 1990) は、フライト予約の音声記録を含む意図検出データセットである。 0.80
• QC (Li and Roth, 2002) is a question classifica- •QC (Li and Roth, 2002) は問題分類である。 0.89
brief introduction of the four models is as follows. 4つのモデルの簡単な紹介は以下のとおりです。 0.69
• LSTM (Hochreiter and Schmidhuber, 1997) is a widely used sentence encoder. LSTM (Hochreiter and Schmidhuber, 1997) は広く使われている文エンコーダである。 0.82
Here, we adopt the bidirectional LSTM. ここでは、双方向LSTMを採用する。 0.71
• LSTMAtt is proposed by Lin et al (2017) that designed the self-attention mechanism to extract different aspects of features for a sentence. LSTMAttはLin et al (2017)によって提案され、文の特徴の異なる側面を抽出する自己認識機構を設計した。 0.67
• BERT (Devlin et al , 2018) was utilized to fine- • bert (devlin et al , 2018) を罰金に用いた。 0.56
tuning on our text classification datasets. テキスト分類データセットをチューニングします 0.72
• CNN is a CNN-based text classification model • cnn は cnn ベースのテキスト分類モデルである 0.65
(Kim, 2014) was expolred in our work. (Kim, 2014)が当社の業務に取り入れられた。 0.80
Except for BERT, the other three models (e g LSTM) are initialized by GloVe (Pennington et al , 2014) or Word2Vec (Mikolov et al , 2013) pretrained word embeddings. BERTを除いて、他の3つのモデル(eg LSTM)はGloVe (Pennington et al , 2014) または Word2Vec (Mikolov et al , 2013) によって初期化されている。 0.82
When the performance on the dev set doesn’t improve within 20 epochs, the training will be stopped, and the best performing model will be kept. 開発セットのパフォーマンスが20時間以内に改善されない場合、トレーニングは中止され、最高のパフォーマンスモデルが維持されます。 0.70
More detailed model parameter settings can be found in the Appendix B. より詳細なモデルパラメータ設定は、Appendix Bで見ることができる。 0.83
4 How to Characterize Discrimination? 4 差別を特徴付ける方法? 0.76
To achieve this goal, we design measures based on the performance of different models for a dataset. この目的を達成するために,データセットの異なるモデルの性能に基づく尺度を設計する。 0.86
4.1 Measures We design several measures to judge dataset’s distinguishing ability based on the performances that top-performing systems have achieved on it.7 4.1 トップパフォーマンスシステムが達成した性能に基づいてデータセットの識別能力を評価するためのいくつかの尺度を設計する。 0.66
Specifically, given a dataset D together with k topscoring model performance list v = [v1,··· , vk], we define the following measures. 具体的には、k トップスコーリングモデルの性能リスト v = [v1,···· , vk] と共にデータセット d が与えられると、次の測度を定義する。 0.71
4.1.1 Performance Variance We use the standard deviation to quantify the degree of variation or dispersion of a set of performance values. 4.1.1 性能変数 一連の性能値のばらつきや分散の程度を定量化するために標準偏差を使用する。 0.80
A larger value of λvar suggests that the discrimination of the given dataset is more significant. λvarの値が大きいことは、与えられたデータセットの識別がより重要であることを示唆している。
訳抜け防止モード: λvar のより大きい値は 与えられたデータセットの識別はより重要である。
0.79
λvar can be defined as: λvar は次のように定義できる。 0.62
tion dataset. tion データセット。 0.76
• ADE (Gurulingappa et al , 2012) is a subset of •ADE(Gurulingappa et al , 2012)は、サブセットである。 0.80
“Adverse Drug Reaction Data”. 逆薬物反応データ」。 0.58
3.2 Model We re-implement 4 top-scoring systems with typical neural architectures for each dataset. 3.2モデルは、各データセットに典型的なニューラルアーキテクチャを持つ4つのトップスコーリングシステムを再実装します。 0.52
6 The 6We mainly focus on neural network-based models, since most top-scoring systems in the leaderboard are based on deep learning. 6 リーダボードのトップスコーリングシステムのほとんどはディープラーニングに基づいているため,6weは主にニューラルネットワークベースのモデルに重点を置いている。
訳抜け防止モード: 6 主にニューラルネットワークベースのモデルに焦点を当てています。 ほとんどのトップスコアシステムはディープラーニングに基づいています。
0.71
λvar = Std(v), λvar = Std(v) 0.40
(1) where Std(·) is the function to compute the standard deviation. 1 では、Std(·) は標準偏差を計算する関数である。 0.70
Assume that the performance list (k = 3) on dataset D is v = [88, 92, 93], we can get λvar = 2.65. データセット d 上のパフォーマンスリスト (k = 3) が v = [88, 92, 93] であると仮定すると、λvar = 2.65 が得られる。 0.86
7A dataset’s discrimination is defined w.r.t top-scoring models from a leaderboard, keeping itself updated with systems’ evolution. 7Aデータセットの識別は、リーダーボードからトップスコアモデルを定義し、システムの進化に合わせて更新される。 0.71
英語(論文から抽出)日本語訳スコア
4.1.2 Scaled Performance Variance For the above measure, it can only reflect the variances of the performance of different models, without considering whether the model’s performance is close to the upper limit (e g , 100% accuracy) on a given data set. 4.1.2 パフォーマンスのばらつき 上記の測定値に対して、モデルのパフォーマンスが与えられたデータセットの上限(100%精度など)に近いかどうかを考慮せずに、異なるモデルのパフォーマンスのばらつきのみを反映することができる。 0.91
To address this problem, we defined a modified variance by scaling λvar with the difference between the upper limit performance u and average performance Avg(v) of v. この問題に対処するために,v の上限性能 u と平均性能 avg(v) との差で λvar をスケーリングすることで,変形分散を定義する。 0.82
λsva = λvar(u − Avg(v)). λsva = λvar(u − avg(v)) である。 0.80
(2) In practice, u can be defined flexibly based on tasks’ metrics. (2) 実際には、u はタスクのメトリクスに基づいて柔軟に定義できる。 0.75
For example, in text classification task, u could be 100% (w.r.t F1 or accuracy), while in summarization task, u could be the results of oracle sentences (w.r.t ROUGE). 例えば、テキスト分類タスクでは、uは100%(w.r.t f1または精度)になり、要約タスクでは、uはoracleの文(w.r.t rouge)の結果となる。 0.68
Intuitively, given a performance list on text classification dataset: v = [88, 92, 93], we can obtain the λsva = 23.81. 直感的には、テキスト分類データセットのパフォーマンスリストが与えられた: v = [88, 92, 93] λsva = 23.81 を得ることができる。 0.81
4.1.3 Hit Rate The previous two measures quantify dataset’s discriminative ability w.r.t k top-performing systems in an indirect way (i.g, solely based on the overall results of different models). 4.1.3ヒット率 前2つの指標は、データセットの識別能力w.r.t kトップパフォーマンスシステムを間接的に定量化する(例えば、異なるモデルの全体的な結果のみに基づいて)。 0.65
However, sometimes, small variance does not necessarily mean that the dataset fail to distinguish models, as long as the difference between models is statistically significant. しかし、小さなばらつきは、モデル間の差が統計的に有意である限り、データセットがモデルを区別できないことを意味するとは限らない。 0.80
To overcome this problem, we borrow the idea of bootstrap-based significant test (Koehn, 2004) and define the measure hit rate, which quantify the degree to which a given dataset could successfully differentiate k top-scoring systems. この問題を解決するために、bootstrap-based significant test (koehn, 2004) のアイデアを借用し、所定のデータセットがkトップスコーリングシステムをうまく区別できる程度を定量化する測度ヒット率を定義する。 0.74
Specifically, we take all (cid:0)k 具体的には、すべての (cid:0)k 0.72
(cid:1) pairs of systems (cid:1)対のシステム 0.84
2 (mi and mj) and compare their performances on a subset of test samples Dt that is generated using paired bootstrap re-sampling. 2 (miとmj)そして、ペアブートストラップ再サンプリングで生成されるテストサンプルdtのサブセットでパフォーマンスを比較する。 0.58
Let vi(D) > vj(D) be the performance of m1 and m2 on the full test set, we define P (mi, mj) as the frequency of vi(Dt) > vj(Dt) over all T times of re-sampling (t = 1,··· , T ). vi(D) > vj(D) を全テスト集合上の m1 と m2 のパフォーマンスとし、P (mi, mj) を再サンプリングの全 T 時間 (t = 1,··· , T ) 上の vi(Dt) > vj(Dt) の周波数として定義する。 0.81
8 Then we have λhit = 8時が来たら λhit = 0.50
P (mi, mj) P (mi, mj) 0.42
(3) (cid:1)(cid:88) 1(cid:0)k (3) (cid:1)(cid:88) 1(cid:0)k 0.41
2 Metric Comparison The first two metrics, performance variance and scaled performance variance, are relative easily to obtain since they only require holistic performances of different top-scoring models on a given dataset, which can be conveniently collected from existing leaderboards. 2 メトリクスの比較 最初の2つのメトリクス、パフォーマンスのばらつきとスケールしたパフォーマンスのばらつきは、与えられたデータセット上の異なるトップスケーリングモデルの総合的なパフォーマンスのみを必要とするため、比較的簡単に取得できます。 0.58
By 8For example, given a test set with 1000 samples, we ところで 8 例えば、1000個のサンプルを用いたテストセットの場合、 0.71
sample 80% subset from it and repeat this process T times. 80%のサブセットをサンプリングし、このプロセスをT回繰り返す。 0.80
contrast, although the metric hit rate can directly reflect dataset’s ability in discriminating diverse systems, its calculation not only require more finegrained information of system prediction but also complicated bootstrap re-sampling process. 対照的に、メトリックヒットレートは、多様なシステムを識別するデータセットの能力を直接反映することができるが、その計算には、よりきめ細かいシステム予測情報だけでなく、複雑なブートストラップ再サンプリングプロセスも必要である。 0.63
4.2 Exp-I: Exploring Correlation Between 4.2 Exp-I: 相互関係を探る 0.61
Variance and Hit Rate The goal of this experiment is to investigate the reliability of the variance-based discrimination measures (e g , λsva), which are easier to obtain, by calculating its correlation with significant test-based measure λhit, which is costly to get. ばらつきとヒット率 本実験の目的は, 分散に基づく識別尺度(λsva, λsvaなど)の信頼性を, 取得に要する重要なテストベース指標λhitとの相関を算出し, 信頼性について検討することである。 0.75
Since the implementation of λhit relies on the bootstrap-based significant test, we choose text classification as the tested and re-implement 4 classification models (defined in Sec. 3.2) on 9 datasets. λhitの実装はブートストラップに基づく重要なテストに依存しているため、9つのデータセット上の4つの分類モデル(Sec.3.2)としてテキスト分類を選択します。 0.70
The performance and the distinction degree on the 9 text classification dataset are shown in Tab. 9つのテキスト分類データセットのパフォーマンスと識別度をタブに示す。 0.70
1. λvar and λsva measures are designed based on performance variance, even if BERT always achieves the best performance on the same dataset, it will not affect the observed results from our experiments. 1. λvar と λsva の測定値は,BERT が常に同じデータセット上で最高の性能を達成できたとしても,実験の結果には影響しない。 0.58
Correlation measure Here, we adopt the Spearman rank correlation coefficient (Zar, 1972) to describe the correlation between our variance-based measures and the hit rate measure λhit. 相関測度 ここではスピアマンランク相関係数(Zar, 1972)を用いて、分散に基づく測度とヒットレート測度λhitの相関関係を記述する。 0.82
Sλ = Spearman(q, λhit), Sλ = Spearman(q, λhit) 0.45
(4) where the q can be λvar or λsva. (4) q は λvar または λsva となる。 0.63
Result (1) λvar and λsva are strong correlative (Sλ>0.6) with λhit respectively, which suggests that variance-based metrics could be a considerably reliable alternatives of significant test-based metric. 結果(1) λvar と λsva はそれぞれ λhit と強い相関関係 (Sλ>0.6) を持ち、これは分散ベースの計量が有意なテストベースの計量のかなり信頼できる代替手段であることを示している。 0.65
(2) Spearman(λvar, λhit) > Spearman(λsva, λhit), which indicate that comparing with λsva, dataset discrimination characterized by λvar is more acceptable for λhit. 2) spearman(λvar, λhit) > spearman(λsva, λhit) λsvaと比較すると、λvarを特徴とするデータセットの識別はλhitの方が受け入れられる。 0.80
The reason can be attributed to that the designing of the measure λhit does not consider the upper limit of the model’s performance. その理由は、測度 λhit の設計がモデルの性能の上限を考慮していないからである。 0.64
(3) DPdedia and Yelp are commonly used text classification datasets, while they have the worst ability to discriminate the top-scoring models since they get the lowest value of λvar and λsva. (3) dpdedia と yelp は一般的にテキスト分類データセットとして使用されるが、λvar と λsva の最低値が得られるため、トップスケーリングモデルの識別能力は最悪である。 0.77
By contrast, these two seldom used datasets ADE and ATIS show the better discriminative ability. 対照的に、これらの2つのデータセットはADEとATISではほとんど使われていない。 0.50
4.3 Exp-II: Evaluation of Other Benchmarks 4.3.1 Popular Benchmark Datasets We also investigate how benchmark datasets from other NLP task perform using two devised mea- 4.3 Exp-II: Evaluation of Other Benchmarks 4.3.1 Popular Benchmark Datasets 我々はまた、他のNLPタスクからのベンチマークデータセットがどのように機能するかを、2つの考案されたミーアを使って調査した。 0.49
英語(論文から抽出)日本語訳スコア
Method SST1 CR MR QC IMDB ADE ATIS Yelp DPedia Spearman SST1 CR MR QC IMDBADE ATIS Yelp DPedia Spearman 0.36
BERT 54.12 91.75 85.55 97.19 93.34 93.48 97.64 97.52 99.27 BERT 54.12 91.75 85.55 97.19 93.34 93.48 97.64 97.52 99.27 0.22
LSTMAttr 43.80 83.25 79.92 90.36 89.45 92.90 97.42 96.60 99.01 LSTMAttr 43.80 83.25 79.92 90.36 89.45 92.90 97.42 96.60 99.01 0.32
LSTM CNN 44.80 47.60 84.25 82.50 82.00 79.80 92.17 89.96 89.65 87.81 89.54 92.65 94.62 97.31 95.46 96.60 99.05 98.75 LSTM CNN 44.80 47.60 84.25 82.50 82.00 79.80 92.17 89.96 89.65 87.81 89.54 92.65 94.62 97.31 95.46 96.60 99.05 98.75 0.22
λhit 0.88 0.91 0.86 0.92 0.87 0.78 0.78 0.81 0.68 λhit 0.88 0.91 0.86 0.92 0.87 0.78 0.78 0.81 0.68 0.22
λvar 4.65 4.27 2.69 3.32 2.33 1.77 1.42 0.84 0.22 0.83 λvar 4.65 4.27 2.69 3.32 2.33 1.77 1.42 0.84 0.22 0.83 0.21
λsva 243.56 62.17 48.83 25.18 23.18 13.90 4.63 2.91 0.21 0.73 λsva 243.56 62.17 48.83 25.18 23.18 13.90 4.63 2.91 0.21 0.73 0.30
Table 1: Illustration the 4 models’ performance and discrimination degree (characterized by λhit, λvar, and λsva) on 9 text classification datasets. 表1: 図解 4つのモデルのパフォーマンスと差別度(λhit, λvar, λsva)を9つのテキスト分類データセットで表す。 0.80
The two correlation coefficients pass the significance test (p < 0.05 ). 2つの相関係数は、重要度試験に合格する(p < 0.05 )。 0.63
λvar and λsva measures are designed based on performance variance. λvar と λsva 測度は性能分散に基づいて設計される。 0.66
sures. Specifically, we collected three single-task and two multitask benchmarks. もちろんだ 具体的には、3つのシングルタスクと2つのマルチタスクベンチマークを収集した。 0.47
For the single-task benchmarks, we collect the top-performing models in a specific period for each dataset, provided by Paperswithcode. シングルタスクベンチマークでは、paperswithcodeが提供するデータセットごとに、特定の期間のトップパフォーマンスモデルを収集します。 0.67
9 For the multitask benchmarks, here, the GLUE 10 and XTREME 11 are considered in this work. 9 マルチタスクベンチマークでは、ここではGLUE 10とXTREME 11が検討されている。 0.71
Since Paperswithcode provided 5 models for each dataset in most case, for fairness and uniformity, we keep top-5 models for both single-task and multitask benchmark datasets. Paperswithcodeは、フェアネスと均一性のために、データセット毎に5つのモデルを提供しているので、シングルタスクとマルチタスクのベンチマークデータセットの両方でトップ5モデルを保持します。 0.59
Named Entity Recognition (NER) aims to identify named entities of an input text, for which we choose 5 top-scoring systems on 6 datasets and collect results from Paperswithcode. Named Entity Recognition (NER) は、入力テキストの名前付きエンティティを識別することを目的としており、6つのデータセット上のトップスコアシステムを選択し、Paperswithcodeから結果を収集する。 0.65
Chinese Word Segmentation (CWS) aims to detect the boundaries of Chinese words in a sentence. 中国語単語セグメンテーション(CWS)は,文中の中国語単語の境界を検出することを目的としている。
訳抜け防止モード: 中国語単語セグメンテーション(cws)の目的 文中の中国語の単語の境界を検出する。
0.76
We select 5 top-scoring systems on 8 datasets and collect results from Paperswithcode. 8つのデータセットから5つのトップスコーリングシステムを選択し、paperswithcodeから結果を収集する。 0.55
Natural Language Inference (NLI) targets at predicting whether a premise sentence can infer the hypothesis sentence. 自然言語推論(NLI)は、前提文が仮説文を推論できるかどうかを予測することを目的としている。
訳抜け防止モード: 自然言語推論(nli)のターゲット 前提文が仮説文を推論できるかどうかを予測する。
0.72
We select 5 top-performing models on 4 datasets from Paperswithcode. Paperswithcodeから4つのデータセットで5つのトップパフォーマンスモデルを選択します。 0.58
GLUE (Wang et al , 2018) covers 9 sentence- or sentence-pair tasks with different dataset sizes, text genres, and degrees of difficulty. GLUE (Wang et al , 2018)は、異なるデータセットサイズ、テキストジャンル、難易度を持つ9つの文ペアタスクをカバーしている。 0.66
Fig 2- (a) shows the tasks/datasets that are considered in GLUE. 図2- (a)GLUEで考慮されているタスク/データセットを示す。 0.48
XTREME (Hu et al , 2020) is the first benchmark that evaluates models across a wide variety of languages and tasks. XTREME(Hu et al , 2020)は、様々な言語やタスクのモデルを評価する最初のベンチマークである。 0.76
The tasks/datasets that are covered by XTREME are shown in Fig 2- xtremeでカバーされるタスク/データセットは、図2に示す。 0.64
(b). 4.3.2 Results and Analysis Fig. 2 shows the results of dataset quality measure by λvar and λsva. (b) 4.3.2 結果と分析図 2 は λvar と λsva によるデータセットの品質測定結果を示している。 0.52
We detail several main observations: いくつかの主要な観察を詳述します 0.53
9https://paperswithc ode.com/ 10https://gluebenchm ark.com/ 11https://sites.rese arch.google/xtreme 9https://paperswithc ode.com/ 10https://gluebenchm ark.com/ 11https://sites.rese arch.google/xtreme 0.19
• λvar and λsva have consistent evaluation results for both single-task (CWS, NER, NLI) and multitask (GLUE, XTREME) benchmarks. λvar と λsva はシングルタスク (CWS, NER, NLI) とマルチタスク (GLUE, XTREME) のベンチマークで一貫した評価結果が得られる。 0.69
• For the XTREME benchmark, BUCC and PAWSX have lowest λvar and λsva, which suggest that they are hardly to discriminate the topperforming systems. ※ XTREME ベンチマーク、BUCC と PAWSX は λvar と λsva が低いため、トップパフォーマンスシステムの識別は困難である。 0.49
Moreover, these two data sets will be removed from the new version of the XTREME leaderboard called XTREME-R (Ruder et al , 2021). さらに、これらの2つのデータセットは、XTREME-R(Ruder et al , 2021)と呼ばれるXTREMEリーダーボードの新バージョンから削除される。 0.75
This consistent observation also shows the effectiveness of our measure. この一貫した観察は、我々の測定の有効性も示している。 0.57
• For GLUE benchmark, CoLA, QQP, and RTE have the excellent ability to distinguish different top-scoring models (with higher λvar and λsva), while the SST-2 and STS-B perform worse. · GLUE ベンチマークでは、CoLA、QQP、RTE は、SST-2 と STS-B が悪化するのに対して、異なるトップスコアモデル(λvar と λsva が高い)を区別する優れた能力を有する。 0.62
• For CWS benchmarks, there is a larger gap between the value of λvar and λsva, which indicate that the performance of top-scoring models considered are close to 100%. • CWS ベンチマークでは λvar と λsva の値の間に大きなギャップがあり、考慮されたトップスコアモデルの性能が100%に近いことを示している。 0.79
Furthermore, MSR, CityU and CTB are not suitable as benchmarks since they have poor discrimination ability with λsva < 0. また,msr,cityu,ctbはλsva<0。
訳抜け防止モード: さらに、MSR、CityU、CTBはベンチマークには適していない。 λsva < 0。
0.54
So as MultiNLI for NLI task. NLIタスクのMultiNLIとして。 0.78
• CoNLL 2003 is a widely used NER dataset, but it is the lowest quality dataset under our dataset quality measure. • CoNLL 2003 は NER データセットとして広く使用されているが,データセットの品質測定では最低品質のデータセットである。
訳抜け防止モード: • CoNLL 2003は広く使われているNERデータセットであるが、 データセットの質を測る 最低品質のデータセットです
0.85
The reason can be attributed to contain much annotation errors (Fu et al , 2020) in the CoNLL 2003 dataset, which makes its performance reach the bottleneck. この理由は、conll 2003データセットに多くのアノテーションエラー(fu et al , 2020)が含まれていることが原因で、パフォーマンスがボトルネックに到達した。 0.63
5 Can we Predict Discrimination? 5 差別を予測できるか? 0.71
Although metrics λvar, λsva ease the burden for us to calculate the datasets’ discrimination, one major limitation is: given a new dataset without results from leaderboards, we need to train multiple topscoring systems and calculate corresponding results on it, which is computationally expensive. メトリクス λvar, λsva はデータセットの識別を計算するための負担を軽減するが、大きな制限は以下のとおりである。 リーダーボードから結果が得られない新しいデータセットが与えられた場合、複数のトップスコアシステムをトレーニングし、それに対応する結果を計算する必要がある。 0.66
To alleviate this problem, in this section, we focus on text この問題を解決するため この節では テキストに焦点を合わせます 0.82
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
5.2.2 Lexical Feature Basic English Words Ratio (φbasic): The proportion of words belonging to the 1000 basic English 12 words in the whole dataset. 5.2.2 Lexical Feature Basic English Words Ratio (φbasic): データセット全体の1000の基本的な英語12語に属する単語の割合。 0.90
Type-Token Ratio (φttr): We measure the text lexical richness by the type-token ratio (Richards, 1987) based on the lexical richness tool. type-token ratio (φttr): lexical richness tool に基づいて、type-token ratio (richards, 1987) によるテキストの語彙豊かさを測定する。 0.77
13 Language Mixedness Ratio (φlmix): To detect the ratio of other languages mixed in the text, we utilize the models proposed by Joulin et al (2016b) for language identification from fastText (Joulin et al , 2016a) which can recognize 176 languages. 13 Language Mixedness Ratio (φlmix): テキストに混在する他の言語の割合を検出するために,Joulin et al (2016b) が提案したモデルを用いて,176言語を認識可能なfastText (Joulin et al , 2016a) の言語識別を行う。 0.88
Pointwise Mutual Information (φpmi): PMI 14 is a measurement to calculate the correlation between variables. pointwise mutual information (φpmi): pmi 14は変数間の相関を計算するための測定である。 0.84
5.2.3 Semantic Feature Perplexity (φppl): We calculate the perplexity 15 based on GPT2 (Radford et al , 2019) to evaluate the quality of the text. 5.2.3 意味的特徴パープレキシティ(φppl): gpt2(radford et al, 2019)に基づいてパープレキシティ15を計算し、テキストの品質を評価する。
訳抜け防止モード: 5.2.3 Semantic Feature Perplexity (φppl ) : GPT2 (Radford et al, 2019) に基づくパープレキシティ15の計算 テキストの質を評価するためです
0.90
Grammar Errors Ratio (φgerr): We adopt the detection tool 16 to recognize words with grammatical errors, and then calculate the ratio of grammatical errors. Grammar Errors Ratio (φgerr):我々は検出ツール16を採用し、文法的誤りのある単語を認識し、文法的誤りの比率を算出する。 0.82
Flesch Reading Ease 17 (φfre): To describe the readability of a text, we introduce the φfre achieving by textstat. flesch reading ease 17 (φfre): テキストの可読性を記述するために、textstatによって達成される φfre を紹介する。 0.78
18 For feature φlen, φttr,φlmix, φgerr, φpmi, φfre, and φrfre, we individually compute φ() on the training, test set, as well as their interaction. 18 特徴 φlen, φttr, φlmix, φgerr, φpmi, φfre, φrfre に対して、訓練、テストセット、およびそれらの相互作用を個別に計算する。 0.65
Take average length (φlen) as an example, we compute the average length on training set φtr,len, test set φte,len, and their interaction ((φtr,len − φte,len)/φtr,len)2. 平均長さ (φlen) を例として、訓練集合 φtr,len, test set φte,len, and their interaction ((φtr,len − φte,len)/φtr,len)2 の平均長さを計算する。 0.92
5.3 Parameterized Models The dataset discrimination prediction (ranking) model takes a series of dataset features as the input and then predicts discrimination(rank) based on ˆf (·) (f (·)) defined in Eq 6 (Eq. 7). 5.3 パラメータ化モデル データセットの識別予測(ランキング)モデルは、一連のデータセットの特徴を入力として取り、Eq 6 (Eq.7) で定義された sf (·) (f (·)) に基づいて識別(ランク)を予測する。 0.77
We explore the effectiveness of four variations of regression methods and two ranking frameworks. 本稿では,4種類の回帰手法と2つのランキングフレームワークの有効性について検討する。 0.52
Regression Models: LightGBM (Ke et al , 2017) is a gradient boosting framework with faster train- 回帰モデル: LightGBM (Ke et al , 2017) は、より高速な勾配向上フレームワークである。 0.74
12https://simple.wik ipedia.org/wiki/ 12https://simple.wik ipedia.org/wiki/ 0.17
Wikipedia:List_of_10 00_basic_words Wikipedia:List_of_10 00_basic_words 0.20
13https://github.com /LSYS/ 13https://github.com /LSYS/ 0.20
lexicalrichness 14https://en.wikiped ia.org/wiki/ 語彙豊かさ 14https://en.wikiped ia.org/wiki/ 0.26
Pointwise_mutual_inf ormation Pointwise_mutual_inf ormation 0.20
15https://en.wikiped ia.org/wiki/ 15https://en.wikiped ia.org/wiki/ 0.17
Perplexity 16https://github.com /jxmorris12/ パープレキシティ 16https://github.com /jxmorris12/ 0.27
language_tool_python language_tool_python 0.20
17https://en.wikiped ia.org/wiki/Flesch% 17https://en.wikiped ia.org/wiki/Flesch% 0.18
E2%80%93Kincaid_read ability_tests 18https://github.com /shivam5992/ E2%80%93Kincaid_read ability_tests 18https://github.com /shivam5992/ 0.22
textstat ing and better performance than XGBoost. textstat XGBoostよりもパフォーマンスが向上した。 0.61
Knearest Neighbor (KNN) (Peterson, 2009) is a non-parametric model that makes the prediction by exploring the k neighbors. Knearest Neighbor (KNN) (Peterson, 2009) は、K近傍を探索することによって予測を行う非パラメトリックモデルである。 0.82
Support Vector Machine (SVM) (Suykens and Vandewalle, 1999) uses kernel trick to solve both linear and non-linear problems. Support Vector Machine (SVM) (Suykens and Vandewalle, 1999) は、線形および非線形の問題を解決するためにカーネルトリックを使用する。 0.78
Decision Tree (DT) (Quinlan, 1990) is a tree-based algorithm that gives an understandable interpretation of predictions. Decision Tree (DT) (Quinlan, 1990) は、予測の理解可能な解釈を与える木に基づくアルゴリズムである。 0.89
Ranking Frameworks: LightGBM with Gradient Boosting Decision Tree (Friedman, 2001) boosting strategy was selected as our ranking model. ランキングフレームワーク: グラディエントブースティング決定木を用いたLightGBM (Friedman, 2001) のブースティング戦略をランキングモデルとして選択した。 0.70
XGBoost (Chen and Guestrin, 2016) with gbtree(Hastie et al , 2009) boosting strategy was another ranking model. XGBoost (Chen and Guestrin, 2016) with gbtree (Hastie et al , 2009) boosting strategyは別のランキングモデルである。 0.92
5.4 Experiments 5.4.1 Data Construction To construct a collection with large amount of discriminative datasets, we randomly select three dataset features (e g average sentence length φlen) to divide the original dataset into several nonoverlapping sub-datasets. 5.4 実験 5.4.1 データ構築 大量の識別データセットを持つコレクションを構築するために、元のデータセットを複数の非重複サブデータセットに分割するために、3つのデータセット特徴(例えば平均文長φlen)をランダムに選択する。 0.66
As a result, we collect 987 sub-datasets. その結果、987のサブデータセットが収集される。 0.62
Then, we train four text classification models (CNN, LSTM, LSTMAtt, BERT) on these sub-dastasets. 次に,これらのサブデータベース上で4つのテキスト分類モデル(CNN,LSTM,LSTMAtt,BE RT)を訓練する。 0.69
Next, we calculate the dataset features φ (defined in Sec. 5.2) and dataset discrimination ability λsva and λvar on these sub-datasets. 次に、これらのサブデータセット上でのデータセット特徴 φ (Sec. 5.2) とデータセット識別能力 λsva と λvar を算出する。 0.73
Regression Task Settings φ and λsva (λvar) will be the input and target of the regression models, as defined by Eq 6. 回帰タスク設定 φ と λsva (λvar) は、Eq 6 で定義された回帰モデルの入力およびターゲットとなる。 0.81
For the experiment setting, we randomly select 287 (φ, λsva (λvar)) pairs as the test set and the rest as the training set (700). 実験では,テストセットとして287(φ,λsva(λvar))ペア,トレーニングセットとして287(λvar)ペアをランダムに選択する(700)。 0.82
Ranking Task Settings We construct datasets for ranking task from the dataset used in regression task. ランク付けタスク設定 回帰タスクで使用されるデータセットから、ランク付けタスクのためのデータセットを構築します。 0.59
Here, we explored the value of n (defined in §5.1.2) to be 5, 7 and 9 to randomly choose samples from Dtr (or Dte) to construct the datasets for the ranking task, and kept 4200, 600, 1200 samples for training, development and testing set respectively. そこで我々は,nの値を5,7,9とし,Dtr(またはDte)のサンプルをランダムに選別してランク付けタスクのデータセットを構築し,それぞれ4200,600,1200のサンプルをトレーニング,開発,テストセットとして保持した。 0.79
5.4.2 Evaluation Metric Regression Task We use RMSE (Chai and Draxler, 2014) and Spearman rank correlation coefficient (Zar, 1972) to evaluate how well the regression model predicts the discriminative ability for datasets. 5.4.2 評価メトリック回帰タスク RMSE (Chai and Draxler, 2014) と Spearman rank correlation coefficient (Zar, 1972) を用いて、回帰モデルがデータセットの識別能力をどの程度正確に予測するかを評価する。 0.82
The Spearman rank correlation coefficient is used for the correlation between the output of a regression model and the ground truth. スピアマンランク相関係数は回帰モデルの出力と基底真理との相関に使用される。
訳抜け防止モード: スピアマンランク相関係数は回帰モデルの出力間の相関に使用される そして 根拠となる真実。
0.72
Ranking Task NDCG (Järvelin and Kekäläinen, 2000) and MAP (Yue et al , 2007) are the evalua- ランク付けタスク NDCG (Järvelin and Kekäläinen, 2000) とMAP (Yue et al , 2007) は評価項目である。 0.90
英語(論文から抽出)日本語訳スコア
tion metric of our ranking task. ランク付けタスクのタイトメトリック。 0.50
For NDCG, it considers the rank of a set of discriminative abilities. NDCGでは、識別能力の集合のランクを考える。 0.61
In our setting, every dataset has its own real discriminative ability. 私たちの設定では、すべてのデータセットに独自の識別能力があります。 0.60
Here, We transfer the predicted discriminative ability to the rank of the dataset in the NDCG metric, so we can use NDCG to evaluate the model’s predicted effect. ここでは,予測された識別能力をNDCGメトリックのデータセットのランクに転送するので,NDCGを用いて予測されたモデルの効果を評価することができる。 0.83
For MAP, it likes how NDCG works, but it considers a set of binary values. MAP では NDCG の動作が好まれるが、バイナリ値の集合を考える。
訳抜け防止モード: MAPでは、NDCGの仕組みが気に入っている。 バイナリ値のセットを考えます
0.79
Here, we set a threshold value of λvar = 3 (λsva = 28) for λvar (λsva) to distinguish the dataset discrimination ability from good (relevant) to bad (irrelevant). ここでは、λvar(λsva)に対してλvar = 3(λsva = 28)のしきい値を設定し、データセットの識別能力を良(関連)から悪(関連)に区別する。 0.75
RMSE Spearman RMSE スピアマン 0.50
Method λvar λsva 方法 λvar λsva 0.39
λvar λsva corr λvar λsva コール 0.37
p corr p KNN 2.42 51.21 0.77 9.75E-40 0.87 1.62E-63 LightGBM 1.53 32.74 0.72 2.23E-33 0.87 7.01E-61 1.73 43.33 0.64 9.25E-25 0.84 1.33E-53 DT SVM 2.83 62.44 0.68 1.14E-28 0.77 7.26E-40 p コール p KNN 2.42 51.21 0.77 9.75E-40 0.87 1.62E-63 LightGBM 1.53 32.74 0.72 2.23E-33 0.87 7.01E-61 1.73 43.33 0.64 9.25E-25 0.84 1.33E-53 DT SVM 2.83 62.44 0.68 1.14E-28 0.77 7.26E-40 0.33
Table 2: The performance of regressing dataset discrimination for the text classification. 表2: テキスト分類のための回帰データセット識別の性能。 0.74
“corr” denotes the “correlation”. corr”は“correlation”を意味する。 0.72
Model LightGBM モデル LightGBM 0.82
XGBoost n 9 7 5 9 7 5 XGBoost n 9 7 5 9 7 5 0.43
NDCG MAP λvar 98.20 97.76 96.73 96.66 96.74 95.93 NDCG 地図 λvar 98.20 97.76 96.73 96.66 96.74 95.93 0.40
λsvar 98.85 98.73 97.08 97.13 97.65 97.10 λsvar 98.85 98.73 97.08 97.13 97.65 97.10 0.22
λvar 97.50 97.01 96.56 92.91 94.77 95.49 λvar 97.50 97.01 96.56 92.91 94.77 95.49 0.22
λsvar 98.27 99.05 98.15 93.62 96.11 98.25 λsvar 98.27 99.05 98.15 93.62 96.11 98.25 0.22
Table 3: The performance of ranking dataset discrimination for the text classification task. 表3:テキスト分類タスクにおけるランキングデータセット識別の性能。 0.76
n is the number of datasets in d defined in §5.1.2 n は d におけるデータセットの個数である。 0.65
. 5.4.3 Results and Analysis Tab. . 5.4.3 結果と分析タブ 0.58
2 and Tab. 3 show the results of four regression models and two ranking models that characterize the dataset discrimination ability, respectively. 2とTab。 3は4つの回帰モデルと,データセット識別能力を特徴付ける2つのランキングモデルの結果を示す。 0.61
We can observe that: Both the regression models and the ranking models can well describe the discrimination ability of different datasets. 回帰モデルとランキングモデルの両方が、異なるデータセットの識別能力をうまく記述することができます。 0.66
For these four regression models, the prediction is highly correlated with the ground truth (with a correlation value larger than 0.6), passing the significance testing (p < 0.05). これら4つの回帰モデルでは、予測は(相関値が0.6より大きい)基底真理と強く相関し、重要度試験(p < 0.05)に合格する。 0.77
This suggests that the dataset discrimination can be successfully predicted. これはデータセットの識別がうまく予測できることを示唆している。 0.58
For these two ranking models, their performance on NDCG and MAP is greater than 95%, which indicates that the これら2つのランキングモデルでは、NDCGとMAPのパフォーマンスは95%以上である。
訳抜け防止モード: これら2つのランキングモデルでは、NDCGとMAPのパフォーマンスは95%以上である。 意味するところは
0.82
discriminative ability of the data set can be easily ranked. データセットの識別能力は 簡単にランク付けできる。 0.69
(a) Inherent (b) Lexical (a)継承者 (b)辞書 0.66
(c) Semantic Figure 3: Feature importance for the text classification measured by LGBoost with the target of λsva. (c)意味論 図3: λsvaをターゲットとしたlgboostによるテキスト分類における特徴的重要性。 0.58
Feature Importance Analysis Fig 3 illustrates the feature importance characterized by LightGBM. 特徴重要度分析図3は、LightGBMが特徴とする特徴の重要性を示している。 0.63
For a given feature, the number of times that is chosen as the splitting feature in the node of the decision trees is defined as its importance degree. ある特徴に対して、決定木のノードにおける分割特徴として選択される回数は、その重要性度として定義される。 0.84
We observe that: (1) The most influential features are φpmi, φlen, and φfre, which come from the lexical, inherent, and semantic features, respectively. 1)最も影響力のある特徴は,語彙的特徴,固有特徴,意味的特徴から生じる φpmi, φlen, φfre である。 0.65
This indicated that the LightGBM can extract features from different aspects to make predictions. これはLightGBMが様々な側面から特徴を抽出して予測できることを示している。 0.61
(2) In the perspective of feature groups, the semantic features are more influential than the inherent features and lexical features. 2)特徴群の観点からは,意味的特徴は本質的特徴や語彙的特徴よりも影響が大きい。 0.76
6 Discussion & Implications Discussion Given a leaderboard of a dataset, metrics explored in this paper can be easily used to calculate its discrimination, while some limitations still exist. 6 データセットのリーダーボードによる議論 この論文で検討されたメトリクスは、その識別を計算するのに簡単に利用できますが、いくつかの制限はまだ存在します。 0.63
We make some discussion below to encourage more explorations on new measures: 以下に、新たな対策のさらなる探究を促すための議論を行う。 0.72
(a) Interpretability: current metrics can only identify which datasets are of lower indiscriminability while don’t present more explanation why it is the case. (a)解釈可能性: 現在のメトリクスは、どのデータセットが低い非識別性であるかを識別できるだけであり、なぜそうなるのかを説明できない。 0.62
(b) Functionality: a dataset with lower discrimination doesn’t mean it’s useless since the supervision signals provided there can not only help us directly train a system for the specific use case but also provide good supervised transfer for related tasks. b) 機能性: 識別率の低いデータセットは、特定のユースケースに対してシステムを直接訓練するだけでなく、関連するタスクに対して優れた教師付き転送を提供するため、役に立たないという意味ではない。 0.75
Metrics designed in this work focus on the role of discriminating models. この研究で設計されたメトリクスは、モデルを識別する役割に焦点を当てている。 0.53
Calls Based on observations obtained from this paper, we make the following calls for future research: (1) Datasets’ discrimination ability w.r.t top-scoring systems could be included in the dataset schema (such as dataset statement (Bender and Friedman, 2018)), which would allow researchers to gain a saturated understanding of the dataset. 1)データセットの識別能力w.r.tトップスコアシステムはデータセットスキーマ(データセットステートメント(Bender and Friedman, 2018)など)に含まれることができ、研究者はデータセットの飽和した理解を得ることができる。 0.54
(2) Leaderboard constructors could also 2) リーダーボードコンストラクタも可能 0.73
lenballabavg05010015 0basiclmixpmittravg1 00150200pplfregerrav g80100120 lenballabavg05010015 0basiclmixpmittravg1 00150pplfregerravg80 100120 0.17
英語(論文から抽出)日本語訳スコア
report the discriminative ability of the datasets they aim to include. 対象とするデータセットの識別能力を報告します 0.57
(3) Seldom used datasets are also valuable for model selection, and a more fair dataset searching system should be investigated, for example, relevance- and scientifically meaningful first, instead of other biases, like popularity. (3) あまり使われていないデータセットはモデル選択にも有用であり、例えば、人気など他のバイアスではなく、関連性および科学的に有意義なデータセット検索システムについて検討する必要がある。 0.71
Acknowledgements We would like to thank Graham Neubig and the anonymous reviewers for their valuable comments. 承認 Graham Neubig氏と匿名のレビュアーたちに、貴重なコメントを感謝します。 0.69
This work was supported by the National Research Foundation of Singapore under its Industry Alignment Fund – Pre-positioning (IAF-PP) Funding Initiative. この研究は、シンガポールの産業調整基金、IAF-PPファンド・イニシアティブによって支援された。 0.55
Any opinions, findings, conclusions, or recommendations expressed in this material are those of the authors and do not reflect the views of the National Research Foundation of Singapore. この資料で示される意見、発見、結論、あるいは勧告は著者のものであり、シンガポール国立研究財団の見解を反映していない。
訳抜け防止モード: この資料で示される意見、所見、結論または推奨事項は、著者のものである。 シンガポール国立研究財団の見解を 反映しないでください
0.66
References Emily M. Bender and Batya Friedman. エミリー・m・ベンダーとバティヤ・フリードマンを参照。 0.56
2018. Data statements for natural language processing: Toward mitigating system bias and enabling better science. 2018. 自然言語処理のためのデータステートメント:システムのバイアス軽減とより良い科学の実現に向けて。 0.58
Transactions of the Association for Computational Linguistics, 6:587–604. 計算言語学会(Association for Computational Linguistics, 6:587–604)の略。 0.54
Alexandra Birch, Miles Osborne, and Philipp Koehn. アレクサンドラ・バーチ、マイルズ・オズボーン、フィリップ・コーン。 0.66
2008. Predicting success in machine translation. 2008. 機械翻訳の成功を予測する。 0.60
In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 745–754, Honolulu, Hawaii. 2008年、ハワイ州ホノルルの745-754ページで「自然言語処理における経験的方法に関する会議」を開催。
訳抜け防止モード: 自然言語処理における実証的手法に関する2008年会議のまとめ 745-754頁、ハワイ州ホノルル。
0.79
Association for Computational Linguistics. Samuel R. Bowman and George E. Dahl. 計算言語学会会員。 サミュエル・R・ボウマンとジョージ・E・ダール。 0.49
2021. What will it take to fix benchmarking in natural language understanding? 2021. 自然言語理解におけるベンチマークの修正には何が必要か? 0.53
CoRR, abs/2104.02145. CoRR, abs/2104.02145。 0.30
Tianfeng Chai and Roland R Draxler. チャンフェン・チャイとローランド・r・ドラクラーだ 0.45
2014. Root mean square error (rmse) or mean absolute error (mae)? 2014. root mean square error (rmse) あるいは mean absolute error (mae)? 0.62
– arguments against avoiding rmse in the literature. -文学における休息の回避を論じる。 0.61
Geoscientific model development, 7(3):1247–1250. 地学モデル開発 7(3):1247-1250。 0.80
Tianqi Chen and Carlos Guestrin. チアンチー・チェンとカルロス・ゲストリン 0.47
2016. Xgboost. 2016. xgboostです 0.60
Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 第22回ACM SIGKDD国際知識発見・データマイニング会議の開催報告 0.68
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2018. BERT: pre-training of deep bidirectional transformers for language understanding. 2018. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.59
CoRR, abs/1810.04805. CoRR, abs/1810.04805。 0.29
Tobias Domhan, Jost Tobias Springenberg, and Frank Hutter. Tobias Domhan、Jost Tobias Springenberg、Frank Hutter。 0.36
2015. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves. 2015. 学習曲線の外挿によるディープニューラルネットワークの自動ハイパーパラメータ最適化の高速化 0.64
In Twenty-Fourth International Joint Conference on Artificial Intelligence. 第20回人工知能国際会議に参加して 0.65
Jerome H Friedman. ジェローム・h・フリードマン 0.59
2001. Greedy function approximation: a gradient boosting machine. 2001. グリーディ関数近似:勾配促進機。 0.54
Annals of statistics, pages 1189–1232. 統計学』 1189-1232頁。 0.68
Jinlan Fu, Pengfei Liu, and Qi Zhang. ジンランフー、pengfei liu、qi zhang。 0.39
2020. Rethinking generalization of neural models: A named enIn The Thirty-Fourth tity recognition case study. 2020. ニューラルモデルの一般化再考:第34回ティリティ認識ケーススタディにおける名前の由来 0.58
AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 7732–7739. AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, page 7732–7739。 0.47
AAAI Press. aaai press所属。 0.47
Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh D Dhole, et al 2021. Sebastian Gehrmann, Tosin Adewumi, Karmanya Aggarwal, Pawan Sasanka Ammanamanchi, Aremu Anuoluwapo, Antoine Bosselut, Khyathi Raghavi Chandu, Miruna Clinciu, Dipanjan Das, Kaustubh Dhole, et al 2021 0.39
The gem benchmark: Natural language generation, its evaluation and metrics. gemベンチマーク: 自然言語の生成、評価、メトリクス。 0.62
arXiv preprint arXiv:2102.01672. arXiv preprint arXiv:2102.01672 0.36
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル。 0.44
2016. Deep Learning. 2016. ディープラーニング。 0.41
MIT Press. http://www. mitプレス。 http://www.com。 0.49
deeplearningbook.org . deeplearningbook.org 所属。 0.52
Harsha Gurulingappa, Abdul Mateen Rajput, Angus Roberts, Juliane Fluck, Martin Hofmann-Apitius, and Luca Toldo. Harsha Gurulingappa, Abdul Mateen Rajput, Angus Roberts, Juliane Fluck, Martin Hofmann-Apitius, Luca Toldo 0.39
2012. Development of a benchmark corpus to support the automatic extraction of drugrelated adverse effects from medical case reports. 2012. 医療事例報告からの薬物関連副作用の自動抽出を支援するベンチマークコーパスの開発 0.52
Journal of Biomedical Informatics, 45(5):885–892. Journal of Biomedical Informatics, 45(5):885–892 0.47
Text Mining and Natural Language Processing in Pharmacogenomics. 薬理ゲノミクスにおけるテキストマイニングと自然言語処理 0.74
Trevor Hastie, Robert Tibshirani, and Jerome Friedman. トレバー・ハスティ、ロバート・ティブズラーニ、ジェローム・フリードマン。 0.56
2009. Boosting and Additive Trees, pages 337–387. 2009. 増木・増木、337-387頁。 0.47
Springer New York, New York, NY. ニューヨーク、ニューヨーク、ニューヨーク。 0.44
Charles T Hemphill, John J Godfrey, and George R Doddington. チャールズ・T・ヘンフィル、ジョン・J・ゴドフリー、ジョージ・R・ドディントン。 0.59
1990. The atis spoken language systems pilot corpus. 1990. atis音声言語システムパイロットコーパス。 0.49
In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990. In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990
訳抜け防止モード: 言葉と自然言語 : ペンシルベニア州ヒドゥン・バレーで開かれたワークショップの議事録 June 24 - 27 , 1990 .
0.73
Sepp Hochreiter and Jürgen Schmidhuber. Sepp HochreiterとJürgen Schmidhuber。 0.37
1997. Neural computation, 1997. 神経計算 0.43
Long short-term memory. 9(8):1735–1780. 短期記憶。 9(8):1735–1780. 0.34
Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, and Melvin Johnson. Junjie Hu, Sebastian Ruder, Aditya Siddhant, Graham Neubig, Orhan Firat, Melvin Johnson 0.35
2020. XTREME: A massively multilingual multitask benchmark for evaluating cross-lingual generalization. 2020. XTREME: 言語間一般化を評価するための多言語マルチタスクベンチマーク。 0.55
CoRR, abs/2003.11080. corr、abs/2003.11080。 0.42
Minqing Hu and Bing Liu. Minqing HuとBing Liu。 0.37
2004. Mining and sumIn Proceedings of the marizing customer reviews. 2004. マイニングと要約 顧客のレビューを熟成する過程。 0.53
Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, page 168–177, New York, NY, USA. 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, page 168–177, New York, NY, USA
訳抜け防止モード: 第10回知識発見・データマイニング国際会議 KDD ’04, page 168–177, New York, NY, USA.
0.69
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Kalervo Järvelin and Jaana Kekäläinen. Kalervo JärvelinとJaana Kekäläinen。 0.39
2000. IR evaluation methods for retrieving highly relevant documents. 2000. 高関連文書検索のためのIR評価方法 0.58
In SIGIR 2000: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, July 24-28, 2000, Athens, Greece, pages 41–48. SIGIR 2000: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, July 24-28, 2000, Athens, Greece, page 41-48
訳抜け防止モード: SIGIR 2000に参加して : 第23回国際情報検索研究会議に参加して 2000年7月24日 - 28日、ギリシャのアテネ、41-48頁。
0.68
ACM. acm。 0.63
英語(論文から抽出)日本語訳スコア
Guangjin Jin and Xiao Chen. 広神晋と陳Xiao氏。 0.57
2008. The fourth international chinese language processing bakeoff: Chinese word segmentation, named entity recognition and chinese pos tagging. 2008. 第4の国際中国語処理バケオフ:中国語単語のセグメンテーション、名前付きエンティティ認識、中国語のposタグ。
訳抜け防止モード: 2008. 第4回国際中国語処理ビークオフ : 中国語のセグメンテーション 名前はエンティティ認識と中国のposタグ。
0.60
In Proceedings of the sixth SIGHAN workshop on Chinese language processing. 中国語処理に関する第6回SIGHANワークショップの開催報告 0.69
Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Hérve Jégou, and Tomas Mikolov. Armand Joulin、Edouard Grave、Piotr Bojanowski、Matthijs Douze、Hérve Jégou、Tomas Mikolov。 0.33
2016a. Fasttext.zip: Compressing text classification models. 2016年。 Fasttext.zip: テキスト分類モデルを圧縮する。 0.73
arXiv preprint arXiv:1612.03651. arXiv preprint arXiv:1612.03651 0.34
Armand Joulin, Edouard Grave, Piotr Bojanowski, Bag of tricks arXiv preprint Armand Joulin, Eduard Grave, Piotr Bojanowski, Bag of trick arXiv preprint 0.41
and Tomas Mikolov. そして、Tomas Mikolov。 0.67
2016b. for efficient text classification. 2016年。 効率的なテキスト分類に役立ちます 0.67
arXiv:1607.01759. arXiv:1607.01759。 0.25
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu
訳抜け防止モード: guolin ke, qi meng, thomas finley, taifeng wang。 wei chen, weidong ma, qiwei ye, and tie - ヤン・リウ。
0.64
2017. Lightgbm: A highly efficient gradient boostIn Advances in Neural Informaing decision tree. 2017. lightgbm: 神経情報伝達決定木における高度に効率的な勾配ブースチンの進歩。 0.51
tion Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 3146–3154. tion processing systems 30: annual conference on neural information processing systems 2017年12月4-9日、2017年ロングビーチ、米国、3146-3154ページ。 0.84
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A Smith, and Daniel S Weld. Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A Smith, Daniel S Weld
訳抜け防止モード: Daniel Khashabi、Gabriel Stanovsky、Jonathan Bragg、Nicholas Lourie 加西順吾、チェイエジン、ノア・A・スミス、ダニエル・S・ウェルド。
0.70
2021. Genie: A leaderboard for human-in-the-loop evaluation of text generation. 2021. Genie: テキスト生成のヒューマン・イン・ザ・ループ評価のためのリーダーボード。 0.47
arXiv preprint arXiv:2101.06561. arXiv preprint arXiv:2101.06561 0.35
Yoon Kim. 2014. キム・ユン 2014. 0.46
Convolutional neural networks for 畳み込みニューラルネットワーク 0.50
sentence classification. CoRR, abs/1408.5882. 文の分類。 CoRR, abs/1408.5882。 0.50
Philipp Koehn. 2004. フィリップ・コーン 2004. 0.48
Statistical significance tests In Proceedfor machine translation evaluation. 機械翻訳評価における統計的意義試験 0.80
ings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 388– 395, Barcelona, Spain. 2004年、スペイン・バルセロナの自然言語処理に関する実証的手法に関する会議、388-395頁。 0.75
Association for Computational Linguistics. Prasanth Kolachina, Nicola Cancedda, Marc Dymetman, and Sriram Venkatapathy. 計算言語学会会員。 prasanth kolachina、nicola cancedda、marc dymetman、sriram venkatapathyなど。 0.53
2012. Prediction of learning curves in machine translation. 2012. 機械翻訳における学習曲線の予測 0.62
In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22–30, Jeju Island, Korea. 第50回計算言語学会年次大会(第1巻:長い論文)において、韓国・済州島22-30頁。 0.55
Association for Computational Linguistics. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. 計算言語学会会員。 Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov、Luke Zettlemoyer。 0.44
2019. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. 2019. bart: 自然言語の生成、翻訳、理解のためのシーケンスからシーケンスへの事前学習。 0.52
ArXiv, abs/1910.13461. ArXiv, abs/1910.13461。 0.61
Xin Li and Dan Roth. シン・リーとダン・ロス 0.49
2002. Learning question clasIn COLING 2002: The 19th International 2002. 2002年「第19回国際会議」に参加して 0.44
sifiers. Conference on Computational Linguistics. sifiers. 専門は計算言語学。 0.47
Tie-Yan Liu. Tie-Yan Liu 0.40
2011. Learning to rank for information 2011. 情報のランク付けを学ぶ 0.65
retrieval. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. 検索。 Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。 0.70
2011. Learning word vectors for sentiment analysis. 2011. 感情分析のための単語ベクトルの学習 0.60
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA. 第49回計算言語学会年次総会の議事録:人間言語技術142-150ページ、オレゴン州ポートランド。 0.56
Association for Computational Linguistics. Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. 計算言語学会会員。 Tomás Mikolov、Ilya Sutskever、Kai Chen、Gregory S. Corrado、Jeffrey Dean。 0.44
2013. Distributed representations of words and phrases and their comIn Advances in Neural Information positionality. 2013. 単語と句の分散表現とそれらのコミンは、神経情報ポジショナリティにおいて進歩する。 0.46
Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. 第26回ニューラル情報処理システムに関する第27回年次大会 0.60
Proceedings of a meeting held December 5-8, 2013, Lake Tahoe, Nevada, United States, pages 3111– 3119. 2013年12月5日-8日にネバダ州タホ湖で行われた会合の議事録3111-3119頁。 0.53
Bo Pang and Lillian Lee. ボ・パンとリリアン・リー。 0.46
2005. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. 2005. 星を見る: 評価尺度に対する感情分類のためのクラス関係の爆発。 0.61
CoRR, abs/cs/0506075. CoRR, abs/cs/0506075。 0.30
Jeffrey Pennington, Richard Socher, and Christopher D. Manning. ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。 0.57
2014. Glove: Global vectors for word representation. 2014. glove: 単語表現のためのグローバルベクトル。 0.63
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, October 25-29, 2014, Doha, Qatar, A meeting of SIGDAT, a Special Interest Group of the ACL, pages 1532–1543. 2014年の自然言語処理における経験的手法に関する会議(emnlp 2014, october 25-29, 2014, doha, qatar, a meeting of sigdat, a special interest group of the acl, pages 1532–1543)の議事録。 0.80
ACL. Leif E Peterson. ACL。 リーフ・e・ピーターソン 0.44
2009. K-nearest neighbor. 2009. kネアレストの隣人。 0.47
Scholarpe- dia, 4(2):1883. 学者- ディア 4(2):1883 0.62
John Ross Quinlan. ジョン・ロス・クインラン 0.49
1990. Probabilistic decision trees. 1990. 確率的決定木。 0.39
In Machine Learning, pages 140–152. 機械学習では140-152ページ。 0.83
Elsevier. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Elsevier アレク・ラドフォード、ジェフリー・ウー、レウォン・チャイルド、デイヴィッド・ルーアン、ダリオ・アモデイ、イリヤ・サツバー。 0.37
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.51
OpenAI blog, 1(8):9. OpenAIブログ、1(8):9。 0.81
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.31
2016. SQuAD: 100,000+ questions for machine comprehension of text. 2016. SQuAD: 機械によるテキスト理解のための10万以上の質問。 0.51
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383–2392, Austin, Texas. 2016年の自然言語処理における経験的手法に関する会議では、テキサス州オースティンの2383-2392ページが取り上げられた。
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 2383–2392頁、テキサス州オースティン。
0.77
Association for Computational Linguistics. Brian Richards. 計算言語学会会員。 ブライアン・リチャーズ。 0.54
1987. Type/token ratios: what do Journal of Child Language, 1987. タイプ/トークン比:Journal of Child Languageとは何か? 0.51
they really tell us? 本当に話してくれるの? 0.51
14(2):201–209. 14(2):201–209. 0.41
Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Graham Neubig, and Melvin Johnson. Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Graham Neubig, Melvin Johnson
訳抜け防止モード: セバスティアン・ルーダー、ノア・コンスタント、ヤン・ボサ、アディティア・シッダーント Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu グラハム・ノイビッグとメルヴィン・ジョンソン。
0.66
2021. XTREME-R: towards more challenging and nuanced multilingual evaluation. 2021. XTREME-R: より困難でニュアンスのある多言語評価に向けて。 0.50
CoRR, abs/2104.07412. corr、abs/2104.07412。 0.39
Zhouhan Lin, Minwei Feng, Cícero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. 周範林、ミンウェイ・フェン、cícero nogueira dos santos、mo yu、bing xiang、bowen zhou、yoshua bengio。
訳抜け防止モード: 周ハン・リン、ミンウェイ・フェン、cícero nogueira dos santos、モ・ユ、 bing xiang氏、bowen zhou氏、yoshua bengio氏。
0.65
2017. A structured self-attentive sentence embedding. 2017. 構造化自己注意文の埋め込み 0.49
CoRR, abs/1703.03130. corr、abs/1703.03130。 0.41
Erik F Sang and Fien De Meulder. Erik F SangとFien De Meulder。 0.40
2003. Introduction to the conll-2003 shared task: LanguagearXiv independent named entity recognition. 2003. Conll-2003の共有タスクの紹介: LanguagearXiv 独立したエンティティ認識。 0.60
preprint cs/0306050. プレプリントcs/0306050。 0.52
英語(論文から抽出)日本語訳スコア
Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu, Yixin Liu, Graham Neubig, and Pengfei Liu. ヤン・シャオ Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu, Yixin Liu, Graham Neubig, Pengfei Liu 0.44
2022. Datalab: A platform for data analysis and intervention. 2022. Datalab: データ分析と介入のためのプラットフォーム。 0.63
CoRR, abs/2202.12875. corr, abs/2202.12875。 0.51
Zihuiwen Ye, Pengfei Liu, Jinlan Fu, and Graham Neubig. zihuiwen ye氏、pengfei liu氏、jinlan fu氏、graham neubig氏。 0.32
2021. Towards more fine-grained and reliable NLP performance prediction. 2021. より微細で信頼性の高いNLPパフォーマンス予測を実現する。 0.50
In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3703–3714, Online. The 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, page 3703–3714, Online 0.38
Association for Computational Linguistics. Yisong Yue, Thomas Finley, Filip Radlinski, and Thorsten Joachims. 計算言語学会会員。 Yisong Yue, Thomas Finley, Filip Radlinski, Thorsten Joachims 0.42
2007. A support vector method In SIGIR 2007: for optimizing average precision. 2007. サポートベクトル法 SIGIR 2007: 平均精度を最適化する。 0.59
Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands, July 23-27, 2007, pages 271–278. 第30回国際ACM SIGIR国際情報検索研究会議2007年7月23日~27日、271~278頁。
訳抜け防止モード: 第30回国際情報検索研究・開発国際会議(acm sigir)参加報告 アムステルダム、オランダ、2007年7月23日-27日。 271-278頁。
0.67
ACM. Jerrold H Zar. acm。 ジェロール・h・ザール 0.49
1972. Significance testing of the spearJournal of the man rank correlation coefficient. 1972. マンランク相関係数のスピアジャーナルの有意な検証 0.45
American Statistical Association, 67(339):578–580. アメリカ統計協会、67(339):578-580。 0.78
Xiang Zhang, Junbo Jake Zhao, and Yann LeCun. チャン・チャン、ジュンボ・ジェイク・ジャオ、ヤン・レクン。 0.36
2015. Character-level convolutional networks for text classification. 2015. テキスト分類のための文字レベル畳み込みネットワーク 0.61
CoRR, abs/1509.01626. corr、abs/1509.01626。 0.40
Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, and Xuanjing Huang. Ming Zhong、Pengfei Liu、Yiran Chen、Danqing Wang、Xipeng Qiu、Xuanjing Huang。 0.35
2020. Extractive summarization as text matching. 2020. テキストマッチングとしての抽出要約。 0.52
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 6197–6208, Online. 第58回計算言語学会年次総会の議事録では、 6197-6208 ページがオンラインで公開されている。 0.51
Association for Computational Linguistics. Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al 2021. 計算言語学会会員。 Victor Sanh, Albert Webson, Colin Raffel, Stephen H Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al 2021
訳抜け防止モード: 計算言語学会会員。 ヴィクター・サン、アルバート・ウェブソン、コリン・ラフフェル、スティーブン・h・バッハ lintang sutawika, zaid alyafeai, antoine chaffin, arnaud stiegler 原題はteven le scao, arun raja, et al 2021。
0.59
Multitask prompted training enables zero-shot task generalization. マルチタスク起動トレーニングは、ゼロショットタスクの一般化を可能にする。 0.45
arXiv preprint arXiv:2110.08207. arXiv preprint arXiv:2110.08207 0.36
Claude E Shannon. クロード・e・シャノン 0.34
1948. A mathematical theory of communication. 1948. コミュニケーションの数学的理論。 0.59
The Bell system technical journal, 27(3):379–423. ベル・システム・テクニカル・ジャーナル、27(3):379-423。 0.58
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts. Richard Socher、Alex Perelygin、Jean Wu、Jason Chuang、Christopher D. Manning、Andrew Ng、Christopher Potts。 0.76
2013. Recursive deep models for semantic compositionality over a sentiment treeIn Proceedings of the 2013 Conference on bank. 2013. 感情木上の意味的構成性の再帰的深層モデル 銀行に関する2013年会議の成果 0.58
Empirical Methods in Natural Language Processing, pages 1631–1642, Seattle, Washington, USA. 自然言語処理における経験的手法 1631-1642頁、ワシントン州シアトル。 0.68
Association for Computational Linguistics. Johan AK Suykens and Joos Vandewalle. 計算言語学会会員。 Johan AK SuykensとJoos Vandewalle。 0.46
1999. Least squares support vector machine classifiers. 1999. 最小二乗はベクトル機械分類器をサポートする。 0.68
Neural processing letters, 9(3):293–300. ニューラル処理文字 9(3):293-300。 0.76
Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, and Christopher Manning. Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, Christopher Manning 0.34
2005. A conditional random field word segmenter for sighan bakeIn Proceedings of the fourth SIGHAN off 2005. 2005. 2005年のSIGHAN第4回Sighan bakeIn Proceedingsの条件付きランダムフィールドワードセグメンタ。 0.52
workshop on Chinese language Processing, volume 171. 中国語処理ワークショップ(第171巻) 0.61
Marco Turchi, Tijl De Bie, and Nello Cristianini. Marco Turchi、Tijl De Bie、Nello Cristianini。 0.65
2008. Learning performance of a machine translation system: a statistical and computational analysis. 2008. 機械翻訳システムの学習性能:統計解析と計算解析 0.54
In Proceedings of the Third Workshop on Statistical Machine Translation, pages 35–43. 第3回統計機械翻訳研究会第35-43頁。 0.58
Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R Bowman
訳抜け防止モード: Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・R・ボウマン。
0.75
2019. Superglue: A stickier benchmark for general-purpose arXiv preprint language understanding systems. 2019. superglue: 汎用arxivプレプリント言語理解システムのためのスティッキーベンチマーク。 0.53
arXiv:1905.00537. arXiv: 1905.00537。 0.48
Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. アレックス・ワン、アマンプレット・シン、ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・ボウマン。 0.43
2018. GLUE: A multi-task benchmark and analysis platIn Proform for natural language understanding. 2018. GLUE: 自然言語理解のためのマルチタスクベンチマークと分析 platIn Proform。 0.60
ceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 353–355, Brussels, Belgium. 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 353–355, Belgium
訳抜け防止モード: 2018 EMNLP Workshop BlackboxNLP に参加して NLPのためのニューラルネットワークの解析と解釈 353-355頁、ブリュッセル、ベルギー。
0.83
Association for Computational Linguistics. Adina Williams, Nikita Nangia, and Samuel R Bowman. 計算言語学会会員。 アディナ・ウィリアムズ、ニキータ・ナンギア、サミュエル・R・ボウマン。 0.49
2017. A broad-coverage challenge corpus for arXiv sentence understanding through inference. 2017. 推論によるarxiv文理解のための広義のチャレンジコーパス 0.49
preprint arXiv:1704.05426. プレプリントarxiv:1704.05426。 0.34
Mengzhou Xia, Antonios Anastasopoulos, Ruochen Xu, Yiming Yang, and Graham Neubig. Mengzhou Xia、Antonos Anastasopoulos、Ruochen Xu、Yiming Yang、Graham Neubig。 0.32
2020. Predicting performance for natural language processing tasks. 2020. 自然言語処理タスクのパフォーマンス予測。 0.57
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8625–8646, Online. 第58回計算言語学会年次総会の議事録では、8625-8646ページがオンラインで公開されている。 0.53
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
A Statistics of Datasets Tab. データセットの統計 タブ。 0.71
4 shows the statistical information of the nine datasets of text classification task used in our work. 4は,本研究で使用したテキスト分類タスクの9つのデータセットの統計情報を示す。 0.77
For those datasets without explicit the development set, we randomly selected 12.5% samples from the training set as the development set. 開発セットを明示しないデータセットに対して、トレーニングセットから開発セットとして12.5%のサンプルをランダムに選択した。 0.67
Dataset IMDB Yelp QC DPedia CR ATIS SST1 MR ADE データセット imdb yelp qc dpedia cr atis sst1 mr ade 0.56
Train 25,000 560,000 5,452 560,000 3,594 4,978 8,544 9,596 23,516 Train 25,000 560,000 5,452 560,000 3,594 4,978 8,544 9,596 23,516 0.22
Test 25,000 38,000 テスト25,000 38,000 0.57
500 - 70,000 500 - 70,000 0.38
400 893 2,210 1,066 400 893 2,210 1,066 0.33
Development - - 1,101 開発 - - 1,101 0.49
Table 4: Statistics of datasets. 表4: データセットの統計。 0.85
B Parameter Settings for Text テキストのBパラメータ設定 0.80
Classification Model In this section, we will introduce the parameter settings of the neural network-based models explored in Section 3.2. 分類モデル 本稿では、第3.2節で検討したニューラルネットワークベースのモデルのパラメータ設定を紹介する。 0.79
The optimizer is AdamW for the four mdoels. 最適化者は4つのmdoelsのAdamWです。 0.70
The settings of other parameters are shown in Tab. 他のパラメータの設定はタブに表示されます。 0.81
5. Parameter learning rate batch size word emb word emb size hidden size max sent len filter size 5. パラメータ学習率バッチサイズ word emb word emb size hidden size max sent len filter size 0.62
BERT 2*e-5 1*e-3 4 32 - Word2vec GloVe 300256 768512- BERT 2*e-5 1*e-3 4 32 - Word2vec GloVe 300256 768512- 0.40
CNN LSTM LSTMAtt 1*e-3 1*e-4 4 32 GloVe 300 256- CNN LSTM LSTMAtt 1*e-3 1*e-4 4 32 GloVe 300 256- 0.44
300 1201,3,5 300 1201,3,5 0.25
Table 5: the parameters of four models. 表5: 4つのモデルのパラメータ。 0.82
C Characterization of Datasets データセットのC特性 0.81
Inherent Feature C.1 Label balance (φbal): The label balance metric measures the variance between the ideal and the true label distribution: φbal = (ct − cs)/cs, where the ct and cs are the true and ideal label information entropy (Shannon, 1948), respectively. 継承的特徴 C.1 ラベルバランス(φbal): ラベルバランス計量は、イデアルと真のラベル分布の分散を測定する: φbal = (ct − cs)/cs, ここで、ct と cs はそれぞれ真と理想のラベル情報エントロピーである(Shannon, 1948)。 0.54
C.2 Lexical Feature Type-Token Ratio (φttr): TTR (Richards, 1987) is a way to measure the documents lexical richness: φttr = ntype/ntoken, where the ntype is the number C.2 lexical feature type-token ratio (φttr): ttr (richards, 1987) は lexical richness: φttr = ntype/ntoken, ここで ntype は数である。 0.52
of unique words, and ntoken is the number of tokens. 独特な言葉でntokenはトークンの数です 0.56
We use lexical richness 19 to calculate the TTR for each sentence and then average them. 語彙豊か度19を用いて各文のTTRを計算し,平均化する。 0.65
Language Mixedness Ratio (φlmix): The proportion of sentence that contains other languages in the whole dataset. Language Mixedness Ratio (φlmix): データセット全体に含まれる他の言語を含む文の割合。 0.89
To detect the mixed other languages, we utilize the models proposed by Joulin et al (2016b) for language identification from fastText (Joulin et al , 2016a) which can recognize 176 languages. 混在する他の言語を検出するために,Joulin et al (2016b) が提案したモデルを用いて,176言語を認識可能なfastText (Joulin et al , 2016a) の言語識別を行う。 0.80
Pointwise Mutual Information (φpmi): is a measurement to calculate the correlation between variables. pointwise mutual information (φpmi): 変数間の相関を計算するための測定である。 0.88
Specifically, for a word in one class φpmi(c,w) = log( p(c,w) p(c)p(w) ), where p(c) is the proportion of the tokens belonging to label c, p(w) is the proportion of the word w, and p(c, w) is the proportion of the word w which belongs to class c. 具体的には、1つのクラス φpmi(c,w) = log(p(c,w) p(c)p(w)) ここで p(c) はラベル c に属するトークンの比率、p(w) は単語 w の比率、p(c,w) はクラス c に属する単語 w の比率である。
訳抜け防止モード: 具体的には、あるクラスの単語に対して φpmi(c, w ) = log(p(c, w) である。 w ) p(c)p(w ) , ここで p(c ) はラベル c に属するトークンの比率、p(w ) は単語 w の比率である。 p(c , w ) はクラス c に属する単語 w の比率である。
0.75
For every class, all the φpmi(c,w), larger than zero, are added to get the sum, which serve as the dataset’s pmi. すべてのクラスに対して、0より大きいすべてのφpmi(c,w)が、データセットのpmiとなる和を得るために加算される。 0.75
Finally,φpmi is calculated by dividing the sum by the numbers of pairs(c,w) of the train dataset. 最後に、φpmiは列車データセットのペア数(c,w)で和を割ることで計算される。 0.70
We pick up the top-ten words sorted by φpmi(c,w) in all classes, then the ration related to the class-related word(φrpmi) is calculated by dividing the number of samples who contain the top-ten words by the total samples in the train set. 全てのクラスでφpmi(c,w) でソートされたトップテン語をピックアップし、クラス関連語(φrpmi) に関連するレーションを列車集合内の全サンプルで上位10語を含むサンプルの数を割ることにより算出する。 0.78
C.3 Semantic Feature Grammar errors ratio (φgerr): The proportion of words with grammatical errors in the whole dataset. C.3 Semantic Feature Grammar error ratio (φgerr):データセット全体における文法的誤りの単語の割合。 0.73
We adopt the detection tool 20 to recognize words with grammatical errors. 検出ツール20を用いて,文法的誤りのある単語を識別する。 0.70
We first compute the grammar errors ratio for each sentence: n/m, where the n and m denote the number of words with grammatical errors and the number of the token for a sentence, averaging them. まず,各文の文法誤り率: n/m を計算し,n と m は文法的誤りのある単語数と文のトークン数を表し,平均化する。
訳抜け防止モード: まず,各文の文法誤り率をn/m,n/mで計算する。 n と m は文法上の誤りのある単語の数を表します 文のトークンの数も 平均化してる
0.71
Flesch Reading Ease (φfre): Flesch Reading Ease 21 calculated by textstat 22 is a way to describe the simplicity of a reader who can read a text. Flesch Reading Ease (φfre): テキストスタット22で計算されたFlesch Reading Ease 21は、テキストを読むことができる読者の単純さを記述する方法である。 0.84
First, we calculate the φfre for each sample, and then average them as the dataset’s feature. まず、サンプル毎にφfreを計算し、データセットの特徴としてそれらを平均化する。 0.81
Then we pick out the samples whose score below 60, then the ration related to the low score samples(φrfre) is calculated by dividing the number of the picked samples by the total samples in the train set. 次に,60点未満の試料を抽出し,電車内の全試料で抽出した試料の数を分割することにより,低スコア試料(φrfre)に関するレーションを算出する。 0.75
19https://github.com /LSYS/ 19https://github.com /LSYS/ 0.20
lexicalrichness 20https://github.com /jxmorris12/ 語彙豊かさ 20https://github.com /jxmorris12/ 0.26
language_tool_python language_tool_python 0.20
21https://en.wikiped ia.org/wiki/Flesch% 21https://en.wikiped ia.org/wiki/Flesch% 0.18
E2%80%93Kincaid_read ability_tests 22https://github.com /shivam5992/ E2%80%93Kincaid_read ability_tests 22https://github.com /shivam5992/ 0.22
textstat textstat 0.42
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。