論文の概要、ライセンス

# (参考訳) データ対分類器 誰が勝つ? [全文訳有]

Data vs classifiers, who wins? ( http://arxiv.org/abs/2107.07451v2 )

ライセンス: CC BY 4.0
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. Kawasaki Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。 それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。 最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。 このため、openml-cc18のようなゴールド標準ベンチマークが用いられる。 しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。 最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。 本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。 OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットが元のベンチマークよりも効率的かどうかをチェックする。 古典からアンサンブルまでいくつかの分類器もIRTモデルを用いて評価されている。 Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。 すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。 さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。 ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。

The classification experiments covered by machine learning (ML) are composed by two important parts: the data and the algorithm. As they are a fundamental part of the problem, both must be considered when evaluating a model's performance against a benchmark. The best classifiers need robust benchmarks to be properly evaluated. For this, gold standard benchmarks such as OpenML-CC18 are used. However, data complexity is commonly not considered along with the model during a performance evaluation. Recent studies employ Item Response Theory (IRT) as a new approach to evaluating datasets and algorithms, capable of evaluating both simultaneously. This work presents a new evaluation methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed to guide the estimation of IRT in ML. It explores the IRT as a tool to evaluate the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks if there is a subset of datasets more efficient than the original benchmark. Several classifiers, from classics to ensemble, are also evaluated using the IRT models. The Glicko-2 rating system was applied together with IRT to summarize the innate ability and classifiers performance. It was noted that not all OpenML-CC18 datasets are really useful for evaluating algorithms, where only 10% were rated as being really difficult. Furthermore, it was verified the existence of a more efficient subset containing only 50% of the original size. While Randon Forest was singled out as the algorithm with the best innate ability.
公開日: Fri, 16 Jul 2021 15:19:51 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 l u J 1 2 0 2 l u J 0.85
6 1 ] G L . 6 1 ] G L。 0.81
s c [ 2 v 1 5 4 7 0 sc [ 2 v 1 5 4 7 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
Lucas F. F. Cardosoa,ࢩ, Vitor C. A. Santosa, Regiane S. Kawasaki Francêsa, Ricardo B. C. Prudênciob and Ronnie C. O. Alvesc ルーカス・F・F・カルドーゾア、ビトル・C・A・サントーサ、レジアン・S・カワサキ・フランチェサ、リカルド・B・C・プルデンシオブ、ロニー・C・O・アルヴェック
訳抜け防止モード: ルーカス・F・F・カルドーサ (Lucas F. F. Cardosoa) - フランスの俳優。 Regiane S. Kawasaki Francêsa, Ricardo B. C. Prudênciob and Ronnie C. O. Alvesc
0.63
aFaculdade de Computação, Universidade Federal do Pará, Belém, Brazil bCentro de Informática, Universidade Federal de Pernambuco, Recife, Brazil cInstituto Tecnológico Vale, Belém, Brazil ARTICLE INFO Keywords: IRT Machine Learning Benchmarking OpenML Classification Rating aFaculdade de Computação, Universidade Federal do Pará, Belém, Brazil bCentro de Informática, Universidade Federal de Pernambuco, Recife, Brazil cinstituto Tecnológico Vale, Belém, Brazil ARTICLE INFO Keywords: IRT Machine Learning Benchmarking OpenML Classification Rating 0.85
ABSTRACT The classification experiments covered by machine learning (ML) are composed by two important parts: the data and the algorithm. ABSTRACT 機械学習(ML)がカバーする分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。 0.82
As they are a fundamental part of the problem, both must be considered when evaluating a model’s performance against a benchmark. それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。 0.63
The best classifiers need robust benchmarks to be properly evaluated. 最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。 0.49
For this, gold standard benchmarks such as OpenMLCC18 are used. このために、openmlcc18のようなゴールド標準ベンチマークが使用される。 0.54
However, data complexity is commonly not considered along with the model during a performance evaluation. しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。 0.74
Recent studies employ Item Response Theory (IRT) as a new approach to evaluating datasets and algorithms, capable of evaluating both simultaneously. 最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。 0.77
This work presents a new evaluation methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed to guide the estimation of IRT in ML. 本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。 0.73
It explores the IRT as a tool to evaluate the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks if there is a subset of datasets more efficientthantheoriginal benchmark. OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットがより効率的かどうかをチェックする。 0.71
Severalclassifiers, fromclassicstoensemb le, arealsoevaluated using the IRT models. fromclassicstoensemb leと呼ばれるいくつかの分類器もIRTモデルを用いて評価される。 0.44
The Glicko-2 rating system was applied together with IRT to summarize the innate ability and classifiers performance. Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。
訳抜け防止モード: Glicko-2レーティングシステムはIRTと併用された 自然能力と分類器のパフォーマンスを まとめるのです
0.70
It was noted that not all OpenML-CC18 datasets are really useful for evaluating algorithms, where only 10% were rated as being really difficult. すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。 0.64
Furthermore, it was verified the existence of a more efficient subset containing only 50% of the original size. さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。 0.72
While Randon Forest was singled out as the algorithm with the best innate ability. ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。 0.65
1. Introduction Machine Learning (ML) commonly consists of allowing the computer to be able to recognize patterns through algorithms and then classifying the analyzed data according to these patterns (Kotsiantis, Zaharakis and Pintelas, 2007). 1. 導入機械学習(ML)は一般的に、アルゴリズムでパターンを認識でき、分析されたデータをこれらのパターンに従って分類できる(Kotsiantis, Zaharakis, Pintelas, 2007)。 0.82
Several applications in different areas adopt ML models to perform tasks. さまざまな分野のいくつかのアプリケーションがタスクを実行するためにMLモデルを採用している。 0.49
The types of learning algorithms range from unsupervisedtosuperv ised(MonardandBarana uskas,2003). 学習アルゴリズムの種類は、教師なし(MonardandBaranauska s, 2003)からである。 0.52
Because of this, studies in ML areas have been growing very fast recently. このため、近年、ML分野の研究は急速に成長している。 0.73
In this work, the focus is on supervised learning algorithms, more precisely on classification algorithms, which are commonly adopted for pattern recognition tasks in several applications (Domingos, 2012). 本研究は,いくつかのアプリケーション(domingos, 2012)のパターン認識タスクに一般的に採用されている分類アルゴリズムに着目し,教師付き学習アルゴリズムに焦点を当てている。 0.83
It is well known that there is not only one supervised learning algorithm, but several types of algorithms that use different types of techniques to perform learning (Monard and Baranauskas, 2003). 教師付き学習アルゴリズムは1つだけではなく、異なるタイプの学習技術を用いて学習を行うアルゴリズムもいくつか存在することが知られている(Monard and Baranauskas, 2003)。 0.85
Along with this, it is also easy to observe that there are several types of datasets that have particular characteristics. これに加えて、特定の特性を持ついくつかのタイプのデータセットが存在することも容易に観察できる。 0.78
However, there is no specific method capable of asserting the best algorithm to be used for a given dataset. しかし、与えられたデータセットに使用する最善のアルゴリズムを主張できる特定の方法は存在しない。 0.77
Becauseofthis, itiscommontoevaluate algorithms empirically. このため、イチコモンエバレート・アルゴリズムは実証的に評価される。 0.31
Empirically evaluating ML algorithms is crucial to unࢩCorresponding author MLアルゴリズムを実証的に評価することは、非対応著者にとって不可欠である 0.46
lucas.cardoso@icen.u fpa.br (L.F.F. lucas.cardoso@icen.u fpa.br (L.F.F.) 0.45
Cardoso); vitor.cirilo3@gmail. com (V.C.A. Cardoso)。 vitor.cirilo3@gmail. com (V.C.A.) 0.57
Santos); kawasaki@ufpa.br (R.S.K. カワサキ@ufpa.br (r.s.k.) 0.54
Francês); rbcp@cin.ufpe.br (R.B.C. rbcp@cin.ufpe.br (r.b.c.) 0.54
Prudêncio); ronnie.alves@itv.org (R.C.O. Prudêncio, ronnie.alves@itv.org (R.C.O.) 0.61
Alves) 0000-0002-7960-3079 (V.C.A. alves) 0000-0002-7960-3079 (v.c.a.) 0.32
Santos); 0000-0003-3958-064X (R.S.K. サントス) 0000-0003-3958-064x (r.s.k.) 0.38
Francês); 0000-0001-7084-1233 (R.B.C. フランセス) 0000-0001-7084-1233 (r.b.c.) 0.37
Prudêncio); 0000-0003-4139-0562 (R.C.O. prudêncio) 0000-0003-4139-0562 (r.c.o.) 0.40
Alves) ORCID(s): 0000-0003-3838-3214 (L.F.F. エルフ) ORCID(s):0000-0003-3 838-3214(L.F.F.F.) 0.46
Cardoso); Cardoso, L. et al : Preprint submitted to Elsevier Cardoso)。 Cardoso, L. et al : Elsevierに提出されたプレプリント 0.71
derstanding the advantages and limitations of available techniques. 利用可能なテクニックの利点と限界を 0.64
In this approach, algorithms are usually evaluated usingdatasetsorbeenc hmarksfromonlinerepo sitories. このアプローチでは、アルゴリズムは通常、datasetsorbeenchmark s fromonlinerepositori esを使用して評価される。 0.55
Followingthegrowthof thearea,inrecentyear sdifferentonline dataset repositories have emerged, such as OpenML (Vanschoren, Van Rijn, Bischl and Torgo, 2014). OpenML(Vanschoren、Van Rijn、Bischl、Torgo、2014)など、Inrecentyearsdiffere ntonlineデータセットリポジトリが登場した。
訳抜け防止モード: OpenML (Vanschoren) など,Inrecentyearsdiffer entonlineデータセットリポジトリが登場した。 Van Rijn, Bischl and Torgo, 2014)。
0.74
Developed to work as a platform, where ML researchers can share their results, methodologies and datasets used in their experiments, such as evaluating the performance of a classifieragainstadataset. ml研究者が自身の実験で使用した結果、方法論、データセットを共有できるプラットフォームとして開発され、classifieragainstada tasetのパフォーマンスを評価することができる。 0.71
Suchplatformimproves theorganization and use of information, creating a collaborative environment (Vanschoren et al , 2014). そのようなプラットフォームは情報の組織化と利用を促進し、協調環境を作り出す(Vanschoren et al , 2014)。 0.60
In addition, OpenML has several reference benchmarks, such as OpenML Curated Classification 2018 (OpenML-CC18), a benchmark for classification tasks that has 72 datasets curated and standardized by the platform (Bischl, Casalicchio, Feurer, Hutter, Lang, Mantovani, van Rijn and Vanschoren, 2017). OpenMLにはいくつかのリファレンスベンチマークがある。OpenML Curated Classification 2018 (OpenML-CC18)は、プラットフォームによってキュレーションされ標準化された72のデータセットを持つ分類タスクのベンチマークである(Bischl、Casalicchio、Feurer、Hutter、Lang、Mantovani、van Rijn、Vanschoren、2017)。 0.70
After selection of a benchmark or dataset, ML models can be trained and tested by applying a specific experimental methodology (e g , cross-validation) and then evaluated using evaluation metrics of interest (e g , accuracy). ベンチマークやデータセットの選択後、特定の実験手法(クロスバリデーションなど)を適用し、関心のある評価指標(正確性など)を用いて評価することで、mlモデルをトレーニングし、テストすることができる。 0.75
This strategy, however, does not allow for an in-depth analysis of the real capacity of the model. しかし、この戦略では、モデルの実際のキャパシティを詳細に分析することはできない。 0.61
Considering that the type of dataset used may be favoring the algorithm, giving the false impression that the classifier is, in fact, the best in relation to the others (Martínez-Plumed, Prudêncio, MartínezUsó and Hernández-Orallo, 2016). 使用されるデータセットの種類がアルゴリズムを好んでおり、分類器が実際は他と最も良い関係にあるという誤った印象を与える(Martínez-Plumed, Prudêncio, MartínezUsó, Hernández-Orallo, 2016)。 0.71
This situation causes the complexity of the data to be taken into account during the process of evaluating the performance of an algorithm. この状況により、アルゴリズムの性能を評価する過程でデータの複雑さが考慮される。 0.69
AccordingKubat(2017) ,onlytheuseoftheclas sicalevaluation metrics can not guarantee that the evaluation result is completely reliable. Kubat(2017)によると、評価結果が完全に信頼されていることを保証できない。 0.55
Therefore, it is important that other metrics Page 1 of 15 したがって、15ページの他の指標が重要である。 0.78
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
are applied to result in a more robust assessment. より堅牢な評価に応用されます 0.57
But in the data vs classifiers fight, who is more important? しかし、データ対分類器の戦いにおいて、誰がより重要か? 0.72
According to Domingos (2012), even a simpler classifier can beat the best classifier if the first classifier has much more training data than the second. domingos (2012) によると、たとえ単純な分類器であっても、第1分類器が第2分類器よりも多くの訓練データを持っている場合、最良の分類器を上回ることができる。 0.53
At the same time, “Data alone is not enough”, models are a fundamental part of the process and make all the difference in the final learning result. と同時に、“データだけでは不十分”であり、モデルはプロセスの基本的な部分であり、最終的な学習結果にすべての違いをもたらす。 0.86
In this way, data and models are two sides of the same coin of machine learning experimentation. このように、データとモデルは、同じ機械学習実験のコインの2つの側面である。 0.85
So, how to evaluate the classifiers considering the data as well? では、データを考慮した分類器の評価方法はどうだろう? 0.75
In previous works (2015; 2016; 2019; 2021) Item Response Theory (IRT) was adopted as a new tool to solve this problem and provide a new and robust approach that allows evaluating both datasets and classifiers. 以前の研究(2015年、2016年、2019年、2021年)では、アイテム応答理論(IRT)がこの問題を解決する新しいツールとして採用され、データセットと分類器の両方を評価できる新しい堅牢なアプローチが提供されました。 0.62
Used in psychometric tests, IRT aims to measure an individual’s ability to correctly answer a set of items (e g , questions) by calculating the individual’s probability of answering the item correctly. 心理測定テストで使用されるirtは、アイテムに正しく答える確率を計算することによって、アイテムの集合(質問など)に正しく答える個人の能力を測定することを目的としている。 0.80
Byconsideringclassifiersasindividualsandt estinstancesas items, it is then possible to apply the concepts of IRT in the ML field. これにより、ML分野においてIRTの概念を適用することが可能となる。 0.55
In addition, the IRT assesses the individual’s ability according to the complexity of the item being answered, through the parameters that describe the item. さらに、irtは、項目を記述したパラメータを通じて、回答される項目の複雑さに応じて、個人の能力を評価する。 0.69
Thus, when applyingIRTinML,itis possibletosimultaneo uslyevaluate datasets and algorithms already considering the complexity of the data when measuring the classifier performance. したがって、IRTinMLを適用する際には、分類器のパフォーマンスを測定する際のデータの複雑さを考慮したデータセットとアルゴリズムを同時に評価する。 0.56
Despite the advantages of applying IRT in ML, evaluating benchmarks and algorithms with IRT is not a simple task. IRTをMLに適用するメリットはあるものの、ベンチマークやアルゴリズムをIRTで評価するのは簡単な作業ではありません。
訳抜け防止モード: IRT を ML に適用するメリットがあるにもかかわらず、 IRTによるベンチマークとアルゴリズムの評価 簡単な作業ではありません
0.69
Given its characteristics, the evaluation requires analysis of the performance of algorithms and the complexity of datasets at the instance level. その特性から、評価にはアルゴリズムのパフォーマンスと、インスタンスレベルでのデータセットの複雑さの分析が必要である。 0.86
Given the above, this work proposes the strategy of using the IRT together with rating systems (Samothrakis, Perez, Lucas and Rohlfshagen, 2014) toassistintheevaluat ionofbothclassifiersandbenchmarks. 以上のことから、本研究はIRTと評価システム(Samothrakis、Perez、Lucas、Rohlfshagen、2014)を併用する戦略を提案している。 0.50
Such systems are commonly used to assess the “strength” of anindividualinacompe tition(e g , chess), thatis, thesesystems serve to measure how good the individual is and measure their proficiency in a given activity. このようなシステムは、通常、個人がどれだけ良いかを測り、与えられた活動において習熟度を測定するのに役立ち、個々の個人差(例えばチェス)の「強さ」を評価するのに使用される。
訳抜け防止モード: このようなシステムは、通常、Anindividualinacompe tition(eg, chess )の“強度”を評価するために使用される。 これらのシステムは 個人がどれだけ良いかを測り 特定の活動の熟練度を測定します
0.78
Thus, the Glicko-2 (Glickman, 2012) rating system was adopted in order to create a ranking to summarize the results obtained by calculating the IRT. そこでGlicko-2 (Glickman, 2012) のレーティングシステムが採用され、IRTを計算した結果を要約するランキングが作成された。 0.74
Preliminary results were obtained in Cardoso, Santos, Francês, Prudêncio and Alves (2020), where it was possible to apply the IRT concepts to evaluate a set of 60 datasets fromtheOpenML-CC18be nchmark, observingtheitempara meters of difficulty and discrimination, using the developedtooldecodIR T.Thisallowedustocla ssifytheOpenMLCC18 benchmark according to its ability to separate good from bad classifiers and to test the classification power of algorithms. 予備的な結果は、カルドーゾ、サントス、フランセス、プルデシオ、アルヴェス(2020年)で得られ、そこでは、irtの概念を適用して、openml-cc18benchmark から60個のデータセットを評価し、難易度と差別のパラメータを観察し、advancedtooldecodirt を用いた。
訳抜け防止モード: 予備結果はカルドーゾ,サントス,フランセ,プルデンシオ,アルヴェス(2020年)で得られた。 そこでは、openml - cc18benchmarkから60のデータセットの集合を評価するためにirtの概念を適用することができた。 developmenttooldecod irt.thisallowustocla ssifytheopenmlcc18ベンチマークによる難易度と識別のパラメータの観察 アルゴリズムの分類能力をテストするためです
0.73
Given the results already obtained, the following questionswereraised: Woulditbepossibletou setheIRTestimators to choose the best benchmark subset within OpenMLCC18? itbepossibletousethe irtestimators to choose the best benchmark subset in openmlcc18? 0.57
Aretheredatasetswith inabenchmarkthatmigh tnot be really good for evaluating learning algorithms? 学習アルゴリズムの評価にはあまり役に立たないだろうか? 0.54
Through this, this work aims to expand the concepts and technologies already explored initially in (Cardoso et al , 2020). この研究は、当初調査されていた概念と技術を拡大することを目的としている(Cardoso et al , 2020)。 0.67
For this, IRT is used to create subsets of OpenML-CC18 datasets, そのため、IRTはOpenML-CC18データセットのサブセットを作成するために使用される。 0.57
then the combination of IRT and Glicko-2 is applied to generate the classifier rankings. 次に、IRTとGlicko-2の組み合わせを適用して分類器ランキングを生成する。 0.68
In sequence, each ranking is analyzed, considering the expected performance of the classifiers to evaluate and then choosing a possible subset that is more efficient than the original. 順に、各ランキングを解析し、分類器の期待性能を考慮して評価し、元のよりも効率的である可能性のあるサブセットを選択する。 0.73
In addition, this work also seekstousetheranking sgeneratedforeachsub settoexplore with the Glicko-2 system the existence of an “innate ability” of the evaluated classifiers and then point out which is the best algorithm. さらに、この研究は、評価された分類器の「本質的な能力」の存在をGlicko-2システムと組み合わせて、最も優れたアルゴリズムを指摘した。 0.77
The main contributions of this work are summarized below: この作品の主な貢献は下記のとおりである。 0.85
• Theproposalofanewmet hodologytosimultaneo usly evaluate the performance of algorithms and the difficultyofdatasets, basedonthecombinatio nofIRTand Glicko-2. ・Theproposalofanewmet hodologytosimultanel y evaluate the performance of algorithm and the difficultyofdatasets , basedonthecombinatio nofIRT and Glicko-2。 0.45
• ThedecodIRTtool,deve lopedtoautomatethepr ocess • ThedecodIRTtool, developedtoautomatet heprocess 0.62
of evaluating datasets and algorithms via IRT. irtによるデータセットとアルゴリズムの評価です 0.66
• Application of the proposed methodology to analyze existing problems in a known benchmark: OpenMLCC18. • 既知のベンチマークにおける既存の問題を解析するための提案手法の応用: OpenMLCC18。 0.71
• The use of the methodology proposed in OpenMLCC18 to point out the best classifier, exploring the concept of innate ability. • OpenMLCC18で提案された方法論を用いて,自然能力の概念を探求し,最も優れた分類器を指摘した。 0.73
The rest of this work is organized as follows: Section 2 contextualizes the main issues covered in this work, more preciselyaboutclassi calperformancemetric s, conceptofinnateabili ty,OpenML,ItemRespon seTheoryandtheGlicko 2 system. セクション2は、この仕事で取り組んだ主な問題を文脈化しており、より正確にはclassical performancemetrics、conceptofinnateabili ty、openml、itemresponsetheory andtheglicko2システムについて書かれている。 0.58
Section 3 presents the related work and compares it with the present work. 第3節は関連する作品を提示し、現在の作品と比較する。 0.58
Section 4 presents the methodology used, explains how decodIRT and the Glicko-2 system were used. 第4節では、decodirtとglicko-2システムがどのように使用されたかを説明している。 0.50
Section 5 discusses the results obtained. 第5節では、得られた結果について論じる。 0.44
Section 6 presents the final considerations of the work and also brings a self-criticism made by the authors. 第6節は、作品の最終的考察を示し、著者による自己批判をもたらす。 0.56
2. Background 2.1. 2. 背番号2.1。 0.61
Classifier abiliity evaluation In ML it is not enough just to train an algorithm, generate a model and start using it. 分類器の可視性評価 MLでは、アルゴリズムをトレーニングし、モデルを生成し、それを使い始めるだけでは不十分です。 0.74
It is very important to know if the model that was generated was really able to learn to classify correctly. 生成されたモデルが本当に正しく分類できることを学べるかどうかを知ることが非常に重要です。 0.82
For this, one can apply performance evaluation metrics most common. そのため、最も一般的なパフォーマンス評価指標を適用することができる。 0.68
According to Kubat (2017) there are different performance metrics and each one can be more interesting than the other depending on the aspect you want to evaluate. Kubat氏 (2017) によると、異なるパフォーマンス指標があり、それぞれが評価したいアスペクトによって、お互いよりも興味深い場合がある。 0.81
Accuracy and error rate are one of the most used classic metrics. 精度とエラー率は、最もよく使われる古典的な指標の1つです。 0.65
However, the result of a single performance metric canbemisleadingandno tcorrectlyreflectthetruecapability ofaclassifier(Kubat,2017). しかし、単一の性能計量カンベミスリーディングの結果は、aclassifier (Kubat, 2017) の正確性に反する。 0.48
InFerri, Hernández-Oralloand Modroiu (2009) the authors experimentally analyzed the behavior of a total of 18 performance metrics. InFerri, Hernández-Oralloand Modroiu (2009) 著者らは18のパフォーマンス指標の挙動を実験的に分析した。 0.81
In the work, it is reinforced that the different performance metrics can generate different evaluations about the model’s capacity depending on the situation, that is, it depends on the data set used. この作業では、異なるパフォーマンスメトリクスが、使用するデータセットに依存する状況に応じて、モデルのキャパシティに関する異なる評価を生成できることが強化される。 0.72
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 2 of 15 15頁2ページ。 0.74
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
For example, in situations where there is an imbalance of classes or the dataset has few instances, a given metric may be preferable over the others. 例えば、クラスの不均衡がある場合や、データセットがインスタンスが少ない場合、与えられたメトリックは他のメトリックよりも好ましい場合があります。 0.69
Thus, it is important to choose one or more specific metrics that are best able to evaluate the model, always considering the situation of the experiment. したがって、実験の状況を常に考慮しながら、モデルを評価するのに最適な1つ以上の特定の指標を選択することが重要である。 0.80
2.1.1. Innate ability According to Domingos (2012), the main objective of ML is generalization, that is, the algorithm that best manages to generalize during training is the best one to be chosen. 2.1.1. Innate ability Domingos (2012) によると、MLの主な目的は一般化であり、つまり、トレーニング中に最もよく管理されるアルゴリズムが選択すべき最良のアルゴリズムである。 0.61
Making an analogy with human life, the preferable algorithm would be one that has the best “innate ability” for learning. 人間の生活と類似させることで、学習に最適な“本質的な能力”を持つアルゴリズムが好まれる。 0.79
Given this situation, the following questions arise: Is it possible to use classical metrics to measure the innate ability of models? この状況を踏まえると、以下の疑問が生じる。 古典的なメトリクスを使用して、モデルの生来の能力を測定することは可能か? 0.67
Which metric or metrics would be best suited to assess a model’s ability? モデルの能力を評価するのに最適なメトリクスやメトリクスは何か? 0.62
For this, first, it is important to define what would be the innate ability. まず最初に、本質的な能力とは何かを定義することが重要です。 0.78
The innate can be conceptualized as: “born with”. 生来は、”born with”として概念化することができる。 0.62
This means that the innate ability would then be an ability that is already present from the individual’s birth. つまり、自然の能力は、その個体の誕生からすでに存在する能力であるということだ。 0.66
For example, people from a young age have immense talent in a given activity. 例えば、若い頃の人々は、ある活動において大きな才能を持っている。 0.78
When translating this concept into the field of supervised learning, the skill of a model would be its ability to learn to classify well, as this is the only activity to be performed. この概念を教師付き学習の分野に翻訳する場合、モデルのスキルは、実行すべき唯一のアクティビティであるため、適切に分類する能力である。 0.66
The innate ability would then be the ability of the algorithm to be able to classify well independently of the hyperparameters and datasets used, as this would be a natural ability that the algorithm was “born with”. 自然の能力は、アルゴリズムが使用するハイパーパラメータやデータセットと独立して適切に分類できる能力である。
訳抜け防止モード: 自然界の能力はアルゴリズムの能力であり 使用するハイパーパラメータやデータセットから かなり独立して分類します アルゴリズムが“生まれた”のは当然のことです。
0.64
Classical metrics aim to evaluate the classifier facing a specific task, that is, whether the classifier can classify a dataset well. 古典的なメトリクスは、特定のタスクに直面する分類器、すなわち分類器がデータセットをうまく分類できるかどうかを評価することを目的としている。 0.55
This approach only assesses the ability of the algorithmagainstasin gledataset,whichdoes notallowdefining whether the model would perform well in a general context, a situation that we seek to explore with the concept of innate ability. このアプローチは、モデルが一般的な文脈でうまく機能するかどうかを定義できないアルゴリズムアゲインスタシンレデータセットの能力のみを評価する。
訳抜け防止モード: このアプローチは、一般的な文脈でモデルがうまく機能するかどうかを判断するアルゴリズムアゲインスタシンレデータセットの能力のみを評価する。 自然能力という概念で探求しようとする状況です
0.70
2.2. OpenML OpenML is a repository that works as a collaborative environment, where ML researchers can automatically share detaileddataandorgan izeittoworkmoreefficientlyandcollaborat e on a global scale (Vanschoren et al , 2014). 2.2. OpenML OpenMLはコラボレーティブな環境として機能するリポジトリで、ML研究者は、グローバルなスケールで、詳細データと組織を効率的にコラボレーションする(Vanschoren et al , 2014)。 0.71
It also allows ML tasks to be executed with the repository datasets using the preference algorithm and then share the results obtained within the platform, minimizing the double effort. また、好みアルゴリズムを使ってmlタスクをリポジトリデータセットで実行し、プラットフォーム内で結果を共有することで、倍の労力を最小化することができる。 0.68
In addition, OpenML also makes it possible for new datasets to be made available by users, challenging the community to run algorithms on the dataset using specific parameters to solve a given ML task (e g , classification) (Vanschoren et al , 2014). さらに、OpenMLは、ユーザーが新しいデータセットを利用できるようにし、特定のMLタスク(例えば、分類)を解決するために特定のパラメータを使用してデータセット上でアルゴリズムを実行するようにコミュニティに挑戦する(Vanschoren et al , 2014)。 0.77
Theplatformcanbedivi dedintofourmainclass es,namely: Datasets, Tasks, Flows and Runs. platformcanbedivided intofourmainclasses: データセット、タスク、フロー、実行。 0.47
In the Datasets class, the existing datasets in OpenML are made available. Datasetsクラスでは、OpenMLの既存のデータセットが利用可能になっている。 0.72
Tasks describe what to do with the dataset, define what types of inputs are provided, what types of outputs should be returned, and the scientific protocols that can be used. タスクはデータセットをどうするかを記述し、どのタイプの入力が提供され、どのタイプの出力が返されるべきか、科学的プロトコルが使用できるかを定義します。 0.72
Flows are preciselythelearning algorithmsthatareapp liedtosolveTasks. 流れは正確に学習algorithmsthatareapp liedtosolveTasksである。 0.24
WhileRunsistheapplic ationofagivenFlowtoa givenTask (Vanschoren et al , 2014). whilerunsis the applicationofagivenf lowtoagiventask (vanschoren et al, 2014) の略。 0.33
In addition to the four main classes, OpenML also has the Study class which allows you to combine the four main classes into studies to share with the online community or simply to keep a record of a work (OpenML, a). 4つの主要なクラスに加えて、OpenMLにはStudioクラスがあり、これにより4つの主要なクラスをオンラインコミュニティと共有したり、単に仕事の記録(OpenML, a)を保持することができる。 0.79
The Study classalsoallowsthecr eationofbenchmarksui testhatcanbe translated as a set of tasks that are selected to evaluate algorithms under specific conditions. Study class alsoallowsthecreatio n ofbenchmarksuites thatcanbeは特定の条件下でアルゴリズムを評価するために選択された一連のタスクとして翻訳される。 0.65
Creating benchmarks that enable the experiments performed on them to be clearly reproducible,interpr etableandcomparable( Bischletal.,2017). 実験を可能にするベンチマークを作成することは、明らかに再現可能で、解釈可能で、比較可能である(Bischletal.,2017)。 0.47
2.3. OpenMLCC-18 benchmark The creation of appropriate benchmarks are key part of the research in ML. 2.3. OpenMLCC-18ベンチマーク 適切なベンチマークの作成は、MLにおける研究の重要な部分である。 0.63
They are important pieces for the standardization of studies in the area, enabling the community to follow the progress over time, identify which problems are stillachallengeandwh ichalgorithmsarebest forcertainapplicatio ns. 地域における研究の標準化には重要な要素であり、コミュニティは時間とともに進歩を続け、どの問題がStirachallengeandwhi chalgorithmsarebestf orcertainapplication sであるかを特定できる。 0.37
The lack of standardized benchmarks available results in many studies using their own sets of pre-processed datasetsintheirownwa y. 標準ベンチマークの欠如により、独自のデータセットsintheirownwayを使用した多くの研究が得られた。 0.56
Thisconditionmakesit difficultto compare and reproduce the results obtained by these studies (Bischl et al , 2017). この条件はこれらの研究によって得られた結果を比較して再現する(Bischl et al , 2017)。 0.62
In this context, OpenML also has the advantage of providingseveralrefe rencebenchmarks,such astheOpenMLCC18 1. この文脈では、openmlはseveralreferencebenc hmarks(例えばopenmlcc18 1.0)という利点もある。 0.52
Proposed by Bischl et al (2017), OpenML-CC18 is a classification benchmark composed of 72 existing OpenML datasetsfrommid-2018 andwhichaimstoaddres saseriesof requirements to create a complete reference set. Bischl et al (2017)によって提案されたOpenML-CC18は、完全な参照セットを作成するための要件を満たす72の既存のOpenMLデータセットからなる分類ベンチマークである。 0.61
In addition, it includes several datasets frequently used in benchmarks published in recent years. さらに、近年のベンチマークで頻繁に使用されるいくつかのデータセットも含まれている。 0.59
According to Bischl et al (2017), the properties used to filter the datasets are: (a) Number of instances between 500 and 100,000; (b) Number of features up to 5000; (c) At least two classes targeted, where no class has less than 20 instances in total; (d) The proportion between minority and majority classes must be above 0.05; (e) Datasets cannot have been artificially generated; (f) Datasets must allow for randomization through a 10-field cross-validation; (g) No dataset can be a subset of another larger dataset; (h) All datasetsmusthavesome sourceorreferenceava ilable; (i)No datasetshouldbeperfe ctlyclassifiablebyasinglefeature ; (j) No dataset should allow a decision tree to achieve 100% accuracy in a 10-field cross-validation task; (k) Datasets cannot have more than 5000 features after a one-hot-encoding process on categorical features; (l) The datsets cannot have been created by binarizing regression or multiclass tasks; (m) No dataset can be sparse. According to Bischl et al (2017), the properties used to filter the datasets are: (a) Number of instances between 500 and 100,000; (b) Number of features up to 5000; (c) At least two classes targeted, where no class has less than 20 instances in total; (d) The proportion between minority and majority classes must be above 0.05; (e) Datasets cannot have been artificially generated; (f) Datasets must allow for randomization through a 10-field cross-validation; (g) No dataset can be a subset of another larger dataset; (h) All datasetsmusthavesome sourceorreferenceava ilable; (i)No datasetshouldbeperfe ctlyclassifiablebyasinglefeature ; (j) No dataset should allow a decision tree to achieve 100% accuracy in a 10-field cross-validation task; (k) Datasets cannot have more than 5000 features after a one-hot-encoding process on categorical features; (l) The datsets cannot have been created by binarizing regression or multiclass tasks; (m) No dataset can be sparse. 0.95
Therefore, itisunderstoodthatOp enMLhasalottocontrib ute to research in the field of machine learning. したがって、OpenMLhasalottoは機械学習の分野の研究に貢献する。 0.75
In the previous work (Cardoso et al , 2020) an initial analysis of OpenML-CC18 was performed using IRT, which allowed the generation of new relevant metadata about the complexity and quality of the benchmark, such as the difficulty and discriminative power of the data. 以前の研究(Cardoso et al , 2020)では、IRTを用いてOpenML-CC18の最初の分析が行われ、データの難易度や識別力など、ベンチマークの複雑さと品質に関する新しい関連メタデータが生成される。 0.74
In this present work, we seektodeepenthisanal ysisbylookingforasub setofdatasets within OpenML-CC18 that is as good or perhaps better than 本研究では,openml-cc18におけるより優れた,あるいはおそらくより優れたforasubsetofdatasets を探索する。 0.58
1Link to access OpenML-CC18: https://www.openml.o rg/s/99 1Link to access OpenML-CC18: https://www.openml.o rg/s/99 0.46
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 3 of 15 15頁3頁。 0.70
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
the original. Using IRT to find a more efficient benchmark subset that maintains the characteristics of the original. オリジナル。 IRTを使って、オリジナルの特性を維持するより効率的なベンチマークサブセットを見つけます。 0.62
2.4. Item Response Theory According to de Andrade, Tavares and da Cunha Valle (2000), to assess the performance of individuals in a test, traditionally, the total number of correct answers is used to rank the individuals evaluated. 2.4. 項目応答理論 デ・アンドレーデ、タヴァレス、ダ・クンハ・ヴァレ(2000年)によると、伝統的に、テスト中の個人のパフォーマンスを評価するために、評価された個人をランク付けするために正しい回答の総数を使用する。
訳抜け防止モード: 2.4. De Andrade, Tavares and da Cunha Valle (2000)による項目応答理論 テストで個人のパフォーマンスを評価すること 伝統的に、評価された個人をランク付けするために、正しい回答の総数は使用される。
0.74
Despite being common, this approach has limitations to assess the actual ability of an individual. 一般的であるにもかかわらず、このアプローチには個人の実際の能力を評価するための制限がある。 0.60
On the other hand, IRT allows the assessment of latent characteristics of an individual that cannot be directly observed and aims to present the relationship between the probability of an individual correctly responding to an item and their latent traits, that is, their ability in the assessed knowledge area. 一方、irtは、直接観察できない個人の潜在特性の評価を可能とし、項目に正しく応答する個人の確率と潜在特性、すなわち評価された知識領域における能力との関係を提示することを目的としている。 0.73
One of the main characteristics of the IRT is to have the items as central elements and not the test as a whole, the performance of an individual is evaluated based ontheirabilitytohitc ertainitemsofatestan dnothowmany items they hit. IRTの主な特徴の1つは、アイテムを中心的な要素として、テスト全体ではなく、個人のパフォーマンスを評価することである。
訳抜け防止モード: IRTの主な特徴の1つは テスト全体ではなく 中心となる要素として 個人のパフォーマンスは ヒットしたアイテムに基づいて評価されます
0.66
Also according to de Andrade et al (2000), the IRT is a set of mathematical models that seek to represent the probability of an individual to correctly answer an item based on the item parameters and the respondent’s ability, where the greater the individual’s ability , the chance of success will also be greater. また、De Andrade et al (2000) によれば、IRT は、アイテムパラメータと応答者の能力に基づいてアイテムに正しく答える確率を表す数学的モデルである。
訳抜け防止モード: de andrade et al (2000) によれば、irtはアイテムパラメータに基づいてアイテムに正しく答える個人の確率を表現しようとする数学モデルの集合である。 そして、回答者の能力は、個人の能力が大きくなるほど大きい。 成功の可能性も大きくなります。
0.62
The various proposed models depend fundamentally on three factors: 提案する様々なモデルは、基本的に次の3つの要因に依存する。 0.50
1. The item nature: whether it is dichotomous, in which it is only considered whether the answer is right or wrong. 1. 項目の性質は、その答えが正しいか間違っているかのみ考慮されるディコトプスであるかどうかである。 0.75
Or if it is non-dichotomous, where more possible answers are considered. あるいは、もっと可能な答えが考慮される非dichotomousであれば。 0.82
2. Number of populations involved, if it is just one or more than one. 2. 人口が1人以上である場合、その人数は1人以上である。 0.80
3. Amount of latent traces being measured. 3. 潜在トレースの量を測定する。 0.73
Logisticmodelsfordic hotomousitemsarethem ostused, for these items there are basically three types of models, which differ by the number of item parameters used. ロジスティックモデル(Logistic modelsfordichotomous items)は、基本的に3種類のモデルがあり、使用するパラメータの数によって異なる。 0.74
These are known as 1, 2 and 3 parameter logistic models. これらは 1, 2 および 3 のパラメータロジスティックモデルとして知られている。 0.70
The 3parameter logistic model, called 3PL, is the most complete among the three, where the probability of an individual  correctly answering an item  given their ability is defined by the following equation: 3パラメータロジスティックモデル(3PL)は3つの中では最も完全であり、その能力が与えられたとき、各項目に正確に答える確率は以下の式で定義される。 0.82
 ( = 1) =  + (1 − )  ( = 1) =  + (1 − ) 0.91
Where: 1 1 + −(−) どこ? 1 1 + −(−) 0.72
(1) •  is the dichotomous response that can take the values 1 or 0, being 1 when the individual j hits the item i and 0 when he misses; •  is the ability of the individual j; •  is the item’s difficulty parameter and indicates the location of the logistic curve; (1) • は 1 または 0 の値を取ることができるディコトナス反応であり、個々の j が外れたときにアイテム i と 0 に当たったとき 1 である; • は個々の j の能力である; • はアイテムの難易度パラメータであり、ロジスティック曲線の位置を示す; 0.85
•  istheitem’sdiscriminationparam eter,i.e.,howmuch the item i differentiates between good and bad respondents. • istheitem’s discriminationparame ter(istheitemの判別パラメーター、つまり、私は良い回答者と悪い回答者とを区別している。 0.54
This parameter indicates the slope of the logistic curve. このパラメータは、ロジスティック曲線の傾きを示している。 0.73
The higher its value, the more discriminating the item is; •  is the guessing parameter, representing the probability of a casual hit. 値が高ければ高いほど、アイテムの識別性は高まる; • s は推測パラメータであり、カジュアルヒットの確率を表す。 0.72
It is the probability that a respondent with low ability hits the item. 低い能力を持つ応答者がアイテムにぶつかる確率です。 0.56
Although theoretically the discrimination parameter can vary from −Ý to +Ý, negative discrimination values are not expected. 理論的には、識別パラメータは − から + に変化するが、負の識別値は期待できない。
訳抜け防止モード: 理論的には、識別パラメータは − から + に変化する。 否定的な差別値は期待できない。
0.59
Because this means that the probability of success is greater for individuals with lower ability values, which goes against what is expected by the IRT (de Andrade et al , 2000). これは、IRT(De Andrade et al , 2000)の期待に反する低い能力値を持つ個人にとって、成功の確率が大きくなることを意味する。 0.64
The other two logistic models can be obtained by simplifying the 3PL. 他の2つのロジスティックモデルは、3PLを単純化することで得られる。 0.62
For 2PL the guessing parameter is removed, i.e.,  = 0. 2PL の場合、推定パラメータは除去される。 0.55
And for 1PL the discrimination parameter is also removed, assuming that  = 1. そして 1PL の場合、x = 1 と仮定して微分パラメータも除去される。 0.62
To estimate the item parameters, the response set of all individuals for all items that will be evaluated is used. アイテムパラメータを推定するために、評価されるすべてのアイテムに対する全個人のレスポンスセットが使用される。 0.79
Unlike the classic assessment approach, the IRT is not designed to generate a final respondent score. 従来の評価手法とは異なり、irtは最終応答スコアを生成するように設計されていない。 0.55
Its purpose is to provide a “magnifying glass” that allows you to observe the individual’s performance more specifically on each item and estimate a likely ability level in the assessed area. その目的は、各項目の個々のパフォーマンスをより具体的に観察し、評価された領域における潜在的な能力レベルを推定できる“拡大ガラス”を提供することだ。 0.84
However,whentakingat est,itiscommontowait forafinalscore. しかし、Fitiscommontowaitfor afinalscore。 0.56
Therefore, the IRT also has the concept of True-Score (Lord and Wingersky, 1984), which is the sum of the correct probabilities calculated for each item in the test. したがってIRTはTrue-Score(Lord and Wingersky, 1984)という概念も持っており、これはテストの各項目で計算された正しい確率の和である。 0.81
The True-Score is then used to set a final score that summarizes the respondent’sperformance. 次にtrue-scoreを使用して、応答者のパフォーマンスを要約する最終スコアを設定する。 0.62
Basedontheabove,itis understoodthat IRT can be an adequate approach to assess the real capacity of classifiers and the complexity of datasets. basedontheabove,itis understoodthat irtは、分類器の実際の能力とデータセットの複雑さを評価するための適切なアプローチである。 0.71
2.5. Glicko-2 System Although IRT already has the True-Score calculation as its own metric to generate a final score. 2.5. Glicko-2 System IRTはすでにTrue-Score計算を独自のメトリクスとして持っていて、最終的なスコアを生成する。 0.65
It is understood that inordertoproperlyexp loretheconceptofclas sifiers’ability, it is necessary to apply a more robust evaluation method together with the IRT. inordertoproperlyexp loretheconceptofclas sifiersの能力はIRTとともにより堅牢な評価手法を適用する必要があると理解されている。 0.42
Given this, this work proposes the use of rating systems to summarize the data generated by the IRT and define a final score that is capable of measuring the classifiers’ capacity. そこで本研究では,irtが生成するデータを要約し,分類器のキャパシティを計測可能な最終スコアを定義するための評価システムを提案する。 0.68
Given the fact that rating systems are widely used to measure an individual’s ability in an activity, where rating is the numerical value that measures the ability (Ve ek, Mernik and repinšek, 2014). 評価システムが個人の活動能力を測定するために広く利用されているという事実を考えると、評価は能力を測定する数値である(Ve ek, Mernik, repinšek, 2014)。 0.82
They are usually used in competitions to measure the “strength” of competitors, where each individual will have their own rating value and after a match this value is updated depending on the result (win, draw or defeat). 競技会では通常、各個人が独自の評価値を持ち、その結果(勝利、引き分け、敗北)に応じてその値が更新される。
訳抜け防止モード: 競争では通常、競合他社の“強度”を測定するために使用される。 個人が自分の評価値を持ち そして、マッチ後、この値は結果(勝利、引き分け、敗北)に応じて更新される。
0.80
Among the existing rating systems, Glicko-2 is the update of the Glicko system developed by Mark E. Glickman (2012) to measure the strength of chess players. 既存の格付けシステムの中で、Glicko-2はチェス選手の強さを測定するためにMark E. Glickman(2012年)が開発したGlickoシステムの更新である。 0.69
The Glicko system was developed in order to improve the Elo system (1978) taking into account the players’ activity period to ensure greater reliability to the rating value (Samothrakis et al , 2014). glickoシステムは、プレイヤーの活動期間を考慮してeloシステム(1978年)を改善し、評価値に対する信頼性を高めるために開発された(samothrakis et al , 2014年)。
訳抜け防止モード: Glicko システムは,選手の活動期間を考慮した Elo システムの改善 (1978 年) を目的として開発された。 評価値の信頼性を高めるため(Samothrakis et al, 2014)。
0.84
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 4 of 15 15頁4頁。 0.68
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
In the Glicko-2 system, each individual has three variables used to measure the statistical strength, they are: the rating value R, the rating deviation (RD) and the volatility (). glicko-2システムでは、各個体は統計強度を測定するために使われる3つの変数を持つ: 格付け値r、格付け偏差(rd)、ボラティリティ(i)。 0.54
Despite being very approximate, it cannot be said that the rating value perfectly measures an individual’s ability, as it is understood that this value may suffer some variation. 非常に近似的であるにもかかわらず、評価値が個人の能力を完全に測定しているとは言えません。
訳抜け防止モード: 非常に近似的であるにもかかわらず、それは言えない。 評価値は、個人の能力を完全に測定します。 この値が 変動する可能性があると 理解されているから。
0.63
For this, the Glicko system has the RD, which allows calculating a 95% reliable range of rating variation, using the formula: [ − 2,  + 2]. これに対し、グリッホ系はRDを持ち、この式を使って95%の信頼性のある評価変動を計算できる。
訳抜け防止モード: このために グリコシステムには rdがあり 95%の信頼性範囲のレーティング変動を計算する。 式: [ ] − 2 , ... + 2 ] を用いる。
0.64
This means that there is a 95% chance that the individual’s actual strength is within the calculated range. つまり、実際の強さが計算範囲内にある確率は95%である。 0.56
Therefore, the smaller the RD value, the higher the rating precision (Glickman, 2012; Samothrakis et al , 2014). したがって、RD値が小さいほど、評価精度が高くなる(Glickman, 2012; Samothrakis et al , 2014)。 0.72
To measure how much fluctuation the rating is within its RD range, Glicko uses volatility. RD範囲内でのレーティングの変動度を測定するために、Glickoはボラティリティを使用している。
訳抜け防止モード: RD範囲内でのレーティングの変動量を測定する。 Glickoはボラティリティを使用する。
0.61
Thus, the higher the volatility value, the greater the chances of the rating having large fluctuations within its range, and the lower the volatility, the more reliable the rating is. これにより、ボラティリティ値が高いほど、その範囲内で大きな揺らぎを有するレーティングの確率が高くなり、ボラティリティが低いほど、そのレーティングがより信頼性が高い。 0.58
For example, in a dispute between individuals with low volatility values, based on their ratings it is possible to state more precisely who is the strongest (Samothrakis et al , 2014; Ve ek et al , 2014). 例えば、低いボラティリティ値の個人間の紛争では、その評価に基づいて、誰が最も強いのかをより正確に述べることができる(Samothrakis et al , 2014; Ve ek et al , 2014)。 0.71
The Glicko-2 system uses the concept of rating period to estimate rating values, which consist of a sequence of matches played by the individual. glicko-2システムでは、レーティング期間の概念を使用して、個人がプレイするマッチのシーケンスからなるレーティング値を見積もる。 0.65
At the end of this sequence, the Glicko system updates the player’s parameters using the opponents’ rating and RD along with the results of each game (e g , 1 point for victory and 0 for defeat). このシーケンスの最後に、Glickoシステムは、各ゲームの結果(例えば、勝利の1ポイント、敗北の0ポイント)とともに、相手のレーティングとRDを使ってプレイヤーのパラメータを更新する。 0.70
If the individual is being evaluated for the first time, the Glicko system uses standardized initial values, being: 1500 for rating, 350 for RD and 0.06 for volatility (Glickman, 2012). 個人が最初に評価されている場合、Glickoシステムは標準化された初期値を使用し、評価は1500、RDは350、ボラティリティは0.06である(Glickman, 2012)。 0.76
3. Related works 3.1. 3. 関連作品3.1。 0.75
IRT and ML As it is a recent approach, there are few works that aim to apply IRT in studies involving the fields of AI. IRTとML 最近のアプローチとして、AIの分野に関わる研究にIRTを適用することを目的とした研究はほとんどない。 0.82
Prudêncio et al (2015) seek to take the first steps to employ IRT in ML, the aim of this work is to understand the relationship between a dataset considered difficult and the performance of the models. prudêncio et al (2015) は、mlでirtを採用するための最初のステップを模索しており、本研究の目的は、困難と考えられるデータセットとモデルのパフォーマンスの関係を理解することである。 0.68
Where they consider that once they get the knowledge that a given classifier performs better in datasets with instances considered difficult, this makes this methodpreferableover theothers. 彼らは、与えられた分類器がインスタンスが難しいと考えられるデータセットでより優れた性能を発揮するという知識を一度得ると、このメソッドpreferableovertheoth ersになります。 0.61
Thisanalysisiscompar ed to the methodology used for psychometric analysis of the proficiency level of students on a test, using the IRT. この分析は、IRTを用いて、テスト中の学生の習熟度を心理測定で分析する手法と比較した。 0.64
In this study, several Random Forests models with different numbers of trees were used to generate the set of responsestoestimatet heitemparameters. 本研究では,木数が異なるランダムフォレストモデルを用いて,応答対推定テテムパラメータの集合を生成する。 0.78
Foracasestudy,the Heart-Statlog dataset and the two-parameter logistic model (2PL) were used, focusing on the difficulty parameter. Foracasestudy, Heart-Statlog data and the two-parameter logistic model (2PL) was used on the difficulty parameter。 0.81
In addition, the work also uses IRT to identify instances considered noise through the intentional insertion of false instances. さらに、作業ではIRTを使用して、偽のインスタンスを意図的に挿入することで、ノイズと見なされるインスタンスを識別する。 0.54
Tocomparetheperforma nceofclassifiers, fromthe calculation of the hit probability, three different classifiers were used: Naive Bayes, Logistic Regression and Random Forests. Tocomparethe Performanceofclassif iers, from the calculation of the Hit probability, the three different classificationifiers : Naive Bayes, Logistic Regression and Random Forests。 0.81
Another work that also employs IRT in ML is Martínez- MLでIRTも採用しているもう1つの作品はMartínez氏だ。 0.40
Plumed et al (2016). Plumed et al (2016)。 0.81
In this work, the objective is also to apply IRT as a method to understand how different classification algorithms behave when faced with difficult instances of a dataset. 本研究の目的は、データセットの難しいインスタンスに直面した場合に、異なる分類アルゴリズムがどのように振る舞うかを理解する方法としてIRTを適用することである。 0.64
In addition to trying to verify if the so-called difficult instances are actually more difficult than the others or if they are just noise. いわゆる難しいインスタンスが、他のインスタンスよりも実際に難しいのか、あるいは単にノイズであるのかを確認することに加えて。 0.65
Furthermore, it also seeks to provide an overview of IRT and how it can be used to resolve the many issues that exist about machine learning. さらに、IRTの概要と、機械学習に関する多くの問題を解決するためにどのように使用できるかについても述べています。 0.72
Thisworkisacontinuat ionoftheworkmentione dabove, its main differences are the use of several classifiers from 15 families of algorithms to generate the set of answers. このworkisacontinuationo ftheworkmentionedabo veの主な違いは、回答の集合を生成するために15のアルゴリズムから複数の分類器を使用することである。
訳抜け防止モード: このworkisacontinuation of theworkmentionedabov e, 主な違いは15種類のアルゴリズムからのいくつかの分類器の使用である。 答えのセットを生成します
0.75
As a case study, they use the Cassini and Heart-Statlog datasets. ケーススタディでは、CassiniとHeart-Statlogのデータセットを使用している。 0.57
In addition to proposing the use of artificial classifiers to serve as a baseline between optimal and bad classification in a linear way. さらに、最適な分類と悪い分類を線形に区別するベースラインとして人工分類器の使用を提案する。 0.78
This time, the three-parameter logistic model (3PL) was chosen. このとき、3パラメータロジスティックモデル(3PL)が選択された。 0.73
In addition to presenting the concept of Classifier Characteristic Curve (CCC) as a way to visualize and analyze the variation in the classifiers’ performance on instances with different values of difficulty and discrimination. 分類器特性曲線(ccc)の概念は、難易度と識別の異なるインスタンスにおける分類器の性能の変化を可視化し分析する方法として提示される。 0.77
Martínez-Plumedetal. マルティネス=プラメデタル。 0.24
(2019)isthemostcompl etework, as it aims to describe a pipeline of how to apply IRT in machine learning experiments and explores the advantages of its use, with a focus on supervised learning. (2019)最も完成度の高い作業は、IRTを機械学習の実験に適用する方法のパイプラインを記述することを目的としており、その使用の利点について、教師あり学習に焦点を当てている。
訳抜け防止モード: (2019)最も完成度の高い作業です IRTを機械学習実験に適用する方法のパイプラインを記述する 教師付き学習に焦点をあてて、その利用の利点を探求する。
0.77
In the work, the authors discuss how each item parameter can be used to carry out a deeper analysis about the result of the classifiers. 本研究では,各項目パラメータを用いて分類器の結果についてより深い分析を行う方法について論じる。 0.66
In addition, it is also observed the difference in the use of different logistic models of the IRT, where the 3PL presents the most consistent results. さらに、3PLが最も一貫性のある結果を示すIRTの異なるロジスティックモデルの使用の違いも観察されている。 0.66
To perform the IRT analyses, this study used a set of 12 real datasets plus an artificial dataset. IRT分析を行うために,本研究では,12個の実データセットと人工データセットを用いた。 0.80
In addition, 128 classifiers from 11 different algorithm families were used. さらに11の異なるアルゴリズムファミリーから128の分類器が使用された。 0.76
The objective is to explore why instances have different item parameter values and how this affects the performance of various learning algorithms. 目的は、なぜインスタンスが異なるパラメータ値を持ち、これが様々な学習アルゴリズムのパフォーマンスにどのように影響するかを検討することである。 0.66
At the end of the work, the authors also suggest five main areas of ML in which IRT can be applied, they are: using IRT to improve classifiers; creation of portfolios of algorithms; classifier selection; improve understanding of the complexity of datasets; and evaluation of classifiers using IRT. 研究の最後には、irtを適用可能なmlの5つの主な領域についても提案している。分類器の改善にirtを使用すること、アルゴリズムのポートフォリオの作成、分類器の選択、データセットの複雑さの理解の改善、irtを使用した分類器の評価。
訳抜け防止モード: 作業の最後に、著者らはIRTを適用することができるMLの5つの主要な領域を提案する。 IRTを使って分類器の改善、アルゴリズムのポートフォリオの作成、分類器の選択、データセットの複雑さの理解の改善。 IRT を用いた分類器の評価
0.77
3.2. Benchmarking InadditiontoOpenML-C C18madeavailablebyOp enML, other works also highlight the importance of creating and maintaining good benchmarks, such as Nie, Williams, Dinan, Bansal, Weston and Kiela (2019). 3.2. InadditiontoOpenML-C C18made availablebyOpenMLのベンチマークでは、Nie、Williams、Dinan、Bansal、Weston、Kielaといった優れたベンチマークの作成とメンテナンスの重要性も強調されている。 0.66
In this work the authors propose a new benchmark for NLI (Natural Language Inference), in which the benchmark is developed using an iterative human-and-model-in-t he-loop adversary procedure. 本研究では,NLI(Natural Language Inference)の新たなベンチマークを提案する。
訳抜け防止モード: 本研究では,NLI(自然言語推論)の新しいベンチマークを提案する。 ベンチマークが開発され 反復的な人間 - と - モデル - を - ループ対逆手順で使用する。
0.52
In this format, humans first write problems that models cannotclassifycorrec tly. このフォーマットでは、まず人間がモデルが正しく分類できない問題を書きます。 0.60
Theresultingnewhardi nstancesserve to reveal model weaknesses and can be added to the training set to create stronger models. モデルの弱点を明らかにし、トレーニングセットに追加することで、より強力なモデルを作成することができる。 0.65
Therefore, the new model undergoes the same procedure to collect weaknesses in several rounds, where after each cycle a new stronger model is trained and a new set of tests is created. そのため、新しいモデルは、複数のラウンドで弱点を収集する同じ手順を実行し、各サイクルの後に新しいより強いモデルが訓練され、新しい一連のテストが作成される。 0.76
This cycle can be repeated endlessly to create stronger models and harder このサイクルは無限に繰り返されて、より強力なモデルとより難しいモデルを作ることができる 0.56
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 5 of 15 15頁5頁。 0.70
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
benchmarks after each iteration. 各イテレーションのベンチマーク。 0.55
Based on this premise, Facebook launched Dynabench Facebook,aplatformfo rdynamicdatacollecti onandbenchmarking. この前提に基づいて、FacebookはDynabench Facebook、aplatformfordynamicd atacollection andbenchmarkingを立ち上げた。 0.53
The goal is to use the adversary method to iterativelycreateSOT A(stateoftheart)mode lsandbenchmarks, so you can create a benchmark that doesn’t get outdated over time. 目標は、逆メソッドを使ってSOTA(stateoftheart)m odelsandbenchmarksを反復的に作成することで、時間の経過とともに時代遅れにならないベンチマークを作成することです。 0.70
3.3. Comparison with Related Work Like the studies presented above, this work also seeks to use IRT as a tool for analyzing datasets and classifiers. 3.3. 関連作業との比較 上述したように、この研究は、データセットと分類器を分析するツールとしてIRTの使用も試みています。 0.72
Among the objectives of this work, we seek to evaluate the well-knownbenchmarkO penML-CC18accordingt otheIRT lens, in order to explore its evaluation capacity. 本研究の目的は,その評価能力を探るため,有名なbenchmark OpenML-CC18according toIRTレンズの評価である。 0.84
Alongside this, it is proposed to use the Glicko-2 rating system in conjunction with IRT to perform a more robust assessment of the “strength” of a classifier. これと同時に、Glicko-2レーティングシステムをIRTと併用して、分類器の“強度”をより堅牢に評価することを提案する。 0.69
Additionally, the decodIRT is presented, which allows automating the process of analyzing classifiers and datasets through IRT. さらに、decodIRTが提示され、IRTを通じて分類器とデータセットを分析するプロセスが自動化される。 0.70
Where datasets are automatically downloaded fromtheOpenMLplatfor m, sotheuseronlyneedsto choose which dataset they would like to evaluate. データセットがOpenMLプラットフォームから自動的にダウンロードされる場合、評価したいデータセットはSotheuseronlyneedsto chooseを使用する。 0.59
The goal is to refine the benchmark choice through IRT, looking for the most robust and difficult set of datasets available in OpenML. 目標は、IRTを通じてベンチマークの選択を洗練し、OpenMLで利用可能な最も堅牢で難しいデータセットを探すことです。 0.69
4. Materials and methods 4.1. 4. 材料と方法 4.1。 0.79
IRT and machine learning Althoughgenerallyapp liedforeducationalpu rposes,IRT hasrecentlybeenexten dedtoAIandmorespecificallytoML (2015; 2016; 2019). IRTと機械学習 一般的には、事前目的、IRTは、2015年、2016年、2019年)。 0.50
For this, the following analogy is used: the datasets are the tests, the instances of a dataset are the items and the classifiers are the respondents. データセットはテストであり、データセットのインスタンスは項目であり、分類器は回答者である。
訳抜け防止モード: このために、以下のアナロジーが使われる。 :データセットはテストです。 データセットのインスタンスはアイテムです そして、分類器は回答者です。
0.66
For this work, the 3PL logistic model for dichotomous items was used because it is the most complete and consistent among the existing ones (Martínez-Plumed et al , 2019). この研究のために、dichotomousアイテムの3plロジスティックモデルは、既存のアイテムの中で最も完全で一貫性があるため使用された(martínez-plumed et al , 2019)。 0.65
The item parameters are then used to evaluate the datasets directly, reporting the percentage of difficult instances, with great discriminative power and with a great chance of random hits. アイテムパラメータはデータセットを直接評価するために使用され、難しいインスタンスの割合を報告し、大きな識別力とランダムヒットの可能性を持っている。 0.67
In this way, it is possible to have a view of the complexity of the evaluated datasets and how different classifiers behave in the challenge of classifying different datasets. このようにして、評価されたデータセットの複雑さと、異なるデータセットを分類するチャレンジにおいて、異なる分類器がどのように振る舞うかを見ることができる。 0.65
To calculate the probability of correct answer, you must first estimate the item parameters and the ability of respondents. 正しい回答の確率を計算するには、まず項目パラメータと回答者の能力を予測する必要がある。 0.82
According to Martínez-Plumed et al (2016), there are three possible situations. Martínez-Plumed et al (2016)によると、状況は3つある。 0.78
In the first, only the item parameters are known. 第一に、項目パラメータのみが知られている。 0.81
In the second situation, only the ability of the respondents is known. 第2の状況では、回答者の能力のみが知られている。 0.73
And in the third, and also the most common case, both the items parameters and the respondents ability are unknown. そして第3のケース、そして最も一般的なケースでは、アイテムパラメータと回答者の能力はどちらも不明です。 0.68
This work is in the third case and for this situation, the following two-step interactive method proposed by Birnbaum (1968) is applied: 本研究は第3の事例であり, birnbaum (1968) が提案する2段階対話型手法の適用例である。 0.72
• At first, the parameters of each item are calculated only with the answers of each individual. •まず、各項目のパラメータは各個人の回答でのみ計算される。 0.68
Initial respondent capability values can be the number of correct answers obtained. 初期応答能力値は、得られた正しい答えの数である。 0.77
For classifiers, this study used the accuracy obtained as the initial ability. 本研究は,分類器の精度を初期能力として用いた。 0.80
• Once obtained the items parameters, the ability of individuals can be estimated. • 項目パラメータを得たら、個人の能力を予測することができる。 0.79
For both item parameters andrespondentcapacit y,simpleestimationte chniques can be used, such as maximum likelihood estimation (Martínez-Plumed et al , 2016). アイテムパラメータとrespondentcapacityの両方について、最大確率推定(martínez-plumed et al , 2016)のような単純な推定技術が利用できる。 0.72
4.2. decodIRT tool To build the IRT logistic models and analyze the benchmarks, the decodIRT 2 tool initially presented in Cardoso et al (2020) was used. 4.2.deodIRTツール IRTロジスティックモデルを構築し、ベンチマークを分析するために、deodIRT 2ツールはCardoso et al (2020)で最初に提示された。 0.66
DecodIRT has as main objective to automate the analysis of existing datasets in the OpenML platform as well as the proficiency of different classifiers. DecodIRTは、OpenMLプラットフォームにおける既存のデータセットの分析と、異なる分類器の習熟性を自動化する主な目的である。 0.77
For this, it depends on the probability of correct answer derivedfromthelogist icmodelofIRTandtheit emparameters and the ability of respondents. このため、IRTおよびテテテムパラメータから導かれる正解の確率と回答者の能力に依存する。 0.68
As can be seen in Figure 1, the decodIRT tool consists of a total of four scripts, with three main scripts (within the square) designed to be used in sequence. 図1に示すように、decodIRTツールは合計4つのスクリプトで構成されており、3つのメインスクリプト(正方形)がシーケンスで使用されるように設計されている。 0.80
The first script is responsible for downloading the OpenML datasets, generating the ML models and placing them to classify the datasets. 最初のスクリプトは、OpenMLデータセットをダウンロードし、MLモデルを生成し、データセットを分類する責任がある。 0.83
Then, a response matrix is generated, which contains the classification result of all classifiers for each test instance. 次に、各テストインスタンスに対するすべての分類器の分類結果を含む応答行列を生成する。 0.78
The response matrix is the input to the second script, which in turn is responsible for calculating the item’s parameters. 応答行列は2番目のスクリプトへの入力であり、アイテムのパラメータを計算する責任を負う。 0.67
The last script will use the data generated by the previous ones to rank the datasets using the item parameters and estimate the ability, calculate the response probability and the True-Score of each model. 最後のスクリプトは、前のスクリプトが生成したデータを使用して、アイテムパラメータを使用してデータセットをランク付けし、能力を推定し、各モデルの応答確率と真のスコアを計算する。 0.64
DecodIRTwasmodifiedtoworkasapackageto o, where the fourth script (outside the square) was developed to facilitate the use of the tool by the user. decodirtwasmodifiedt oworkasapackagetoo – 4番目のスクリプト(正方形外)がユーザによるツールの使用を容易にするために開発された。 0.56
Running the tool automaticallyandallo wingtheusertouseIRTe stimatorstoevaluate benchmarks, create benchmark subsets and store them directly in OpenML. ベンチマークを評価し、ベンチマークサブセットを作成し、OpenMLに直接保存する。 0.58
Figure 1: Flowchart of the decodIRT execution. 図1:decodIRT実行のフローチャート。 0.68
4.3. decodIRT_OtML The first script has the function of downloading selected datasetsfromOpenMLan drunningthemodelsont hedatasets 2Link to the source code: https://github.com/L ucasFerraroCardoso/ decodIRT_OtML 最初のスクリプトは、選択したデータセットをOpenMLandrunningthem odelsonthedatasets 2Linkからソースコードにダウンロードする機能を持っている。 0.47
IRT_OpenML IRT_OpenML 0.59
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 6 of 15 15頁6頁。 0.72
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
to get the answers that are used to estimate the item parameters. アイテムパラメーターを見積もるのに使用される答えを得るためです。 0.71
As usual, the datasets are divided into a training set and a test set. 通常、データセットはトレーニングセットとテストセットに分割される。 0.63
So the answers from the classifiers are obtained only for the test set. したがって、分類器からの回答はテストセットに対してのみ得られる。 0.77
By definition a stratified split of 70/30 is performed, but for very large datasets, the split is handled so that the test set is composed of 500 instances at most. 定義上は、70/30の階層化された分割を実行するが、非常に大きなデータセットでは、テストセットが最大500インスタンスで構成されるように分割を処理する。 0.69
This number of instances is considered large enough for analysis and will be better justified later. このインスタンスの数は分析に十分大きいと考えられており、後ほどより正当化されるだろう。 0.66
All ML models are generated using Scikit-learn (2011) asstandardlibrary. すべてのmlモデルは、scikit-learn (2011) asstandardlibraryを使用して生成される。 0.57
Threedifferentsetsofclassifiersaregenerated. threedifferentsetsof classifiers are generated 0.28
The first set is composed only of Neural Network (MLP) models. 最初のセットはニューラルネットワーク(MLP)モデルのみで構成されている。 0.80
Totaling 120 MLP models, where the depth of the networks gradually increases from 1 to 120. 合計120mlpモデルは、ネットワークの深さが1から120へと徐々に増加する。 0.80
The second set is composed of 12 classifiers from different families that are evaluated in this work, they are: Naive Bayes Gaussian standard, Naive Bayes Bernoulli standard, KNN of 2 neighbors, KNN of 3 neighbors, KNN of 5 neighbors, KNN of 8 neighbors, Standard Decision Trees, Random Forests (RF) with 3 trees, Random Forests with 5 trees, Standard Random Forests, Standard SVM and Standard MLP. 第2セットは,本研究で評価されている12の分類器から成り,ナイーブ・ベイズ・ガウス標準群,ナイーブ・ベイズ・ベルヌーイ標準群,2つの隣人群,3つの隣人群,5つの隣人群,8つの隣人群,標準決定木群,3つの木を有するランダム林群,5つの木を有するランダム林群,標準ランダム林群,標準svm,標準mlpである。
訳抜け防止モード: 第2のセットは、この研究で評価される異なる家族の12の分類器で構成されている。 Naive Bayes Gaussian Standard, Naive Bayes Bernoulli Standard。 隣人のKNN、隣人の3人のKNN、隣人の5人のKNN、隣人の8人のKNN 標準決定木、ランダムフォレスト(RF)3本 5つの木を持つランダム林、標準ランダム林、標準SVM 標準MLP。
0.76
The models classified as standard means that the standard Scikitlearn hyperparameters were used. 標準に分類されたモデルは、標準のscikitlearnハイパーパラメータが使用されたことを意味する。 0.60
All models are trained using 10-field cross-validation. すべてのモデルは10フィールドクロスバリデーションを用いて訓練される。 0.54
The third set of models is composed of 7 artificial classifiers. 第3のモデルは7つの人工分類器で構成されている。 0.69
The concept of artificial classifiers is initially presented in Martínez-Plumed et al (2016), as follows: a optimal classifier (gets all the classifications right), a pessimal one (all misses), a majority (classifies all instances with the majority class), a minority (classify with the minority class) andthreerandomclassi fiers(sortrandomly). 人工分類器の概念は、最初は Martínez-Plumed et al (2016) で示され、最適分類器(すべての分類を正しいものにする)、悲観的分類器(全てのミス)、多数派(多数派を持つすべてのインスタンスを分類する)、少数派(少数派に分類する)、および3つのランダム分類器(ソーランマドリー)である。 0.68
Thissetisused to provide performance threshold indicators for real classifiers. 実分類器のパフォーマンス閾値指標を提供するために設定された。 0.55
DespiteusingOpenMLas thebaserepository, decodIRT also allows the user to use local datasets and define training and testing sets specifically. OpenMLasthebaseRepos itoryを使用にもかかわらず、deodIRTでは、ローカルデータセットを使用して、トレーニングとテストセットを具体的に定義することもできる。 0.48
4.4. decodIRT_MLtIRT Thisscript’sfunctionistousether esponsesgeneratedby the classifiers and estimate the item parameters for the test instances. decodIRT_MLtIRT Thisscript'sfunctionistousether esponses generated by the classifiers and estimated the item parameters for the test instance。 0.65
As stated previously, the logistic model for dichotomous items is used, which means that regardless of the number of classes existing in each dataset, it is only considered if the classifier was right or wrong in the classification of each instance. 前述したように、dichotomous itemのロジスティックモデルは、各データセットに存在するクラス数に関係なく、各インスタンスの分類において分類器が正しいか間違っているかのみが考慮されることを意味する。 0.81
To calculate the item parameters, the Ltm package Rizopoulos (2006) for the R language is used, which implements a framework containing several mechanisms for the calculation and analysis of the IRT. 項目パラメータを計算するために、R言語用のLtmパッケージRizopoulos(2006)が使用され、IRTの計算と解析のためのいくつかのメカニズムを含むフレームワークを実装している。 0.85
The Rpy2 package Gautier (2008) was used to perform Python communication with the R packages. Rpy2パッケージGautier (2008)はRパッケージとのPython通信に使用された。 0.79
As mentioned previously, the maximum limit of 500 instances for estimating item parameters was defined. 前述したように、アイテムパラメータを推定する500インスタンスの最大制限を定義した。 0.74
According to Martínez-Plumed et al (2019), packages that estimate the IRT item parameters may get stuck in a local minimum or not converge if the number of items is too large. Martínez-Plumed et al (2019) によると、IRTアイテムパラメータを見積もるパッケージは、ローカルの最小値に留まるか、アイテムの数が大きすぎると収束しない可能性がある。 0.74
This is not strange, as the IRT is used for psychometric tests, it is very unusual for these tests to have such a large number of questions. IRTが心理測定テストに使われているので、このようなテストがこれほど多くの質問をするのは非常に珍しいことです。 0.65
Thus, it is recommended that そのため、推奨される。 0.79
less than 1000 instances be used to estimate the parameters. パラメータの見積には1000台未満のインスタンスを使用する。 0.69
4.5. decodIRT_analysis Thethirdscriptofthem ainsetisinchargeofpe rforming the analysis and organizing the data generated by the previous scripts, in order to make the data easier to read. 4.5. decodIRT_analysis 第3のscriptofthemainsetis inchargeofperform 解析を行い、前のスクリプトで生成されたデータを整理して、データを読みやすくする。 0.53
Among the various functions of this script is the creation of dataset rankings by item parameter. このスクリプトのさまざまな機能は、アイテムパラメータによるデータセットランキングの作成である。 0.80
Each ranking will organize the datasets according to the percentage of instances with high values for each of the parameters, i.e. 各ランキングは、各パラメータに対して高い値のインスタンスの割合に応じてデータセットを整理する。 0.75
values above a certain threshold. あるしきい値を超える値です 0.73
For example, the difficulty ranking will sort the datasets by the number of instances with high difficulty values. 例えば、難易度ランキングは、高い難易度値のインスタンス数によってデータセットをソートする。 0.71
Limits can be defined by the user. 制限はユーザによって定義できる。 0.85
In case the user does not define any specific limit, default limit values are used, based on Adedoyin, Mokobi et al (2013). ユーザが特定の制限を定義しない場合、Adedoyin, Mokobi et al (2013)に基づいてデフォルトの制限値が使用される。 0.83
In the cited work, the authors point out that for an item to be considered difficult, the value of its difficulty parameter must be above 1. 引用された論文では、ある項目が難しいと判断されるためには、その難易度パラメータの値が 1 以上でなければならないと指摘している。
訳抜け防止モード: 引用した作品の中で、著者たちは ある項目が難しいと考えるには、その難易度パラメータの値は 1 以上でなければならない。
0.69
Very discriminative items have a discrimination value above 0.75. 非常に差別的な項目は0.75以上である。 0.61
And for guessing the limit value is 0.2. そして、その極限値は0.2である。 0.77
Analyzing the percentages of item parameters is one of the interests of this work. 項目パラメータのパーセンテージを分析することは、この仕事の利益の1つです。 0.68
Before calculating the probability of correct answer of the classifiers for the instances, one must first estimate the abilityof theclassifiers, asexplained inBirnbaum’smethod. インスタンスの分類器の正解確率を計算する前に、まず、Birnbaumのメソッドで説明されているように、分類器の能力を見積もる必要がある。
訳抜け防止モード: インスタンスの分類器の正解確率を計算する前に。 まず分類器の能力を推定し、Birnbaumのmethodで説明されている。
0.80
Both to estimate the ability  and to calculate the probability of correct answer, use the Catsim package (2017) from Python. 能力を推定し、正しい答えの確率を計算するには、pythonから catsim package (2017) を使用する。 0.69
For this, the instances are sorted according to their difficulty and divided into 10 groups, then they are used in ascending order to estimate the ability of the classifiers. このために、インスタンスは困難度に応じてソートされ、10のグループに分割され、分類器の能力を評価するために上昇順に使用される。 0.75
After this step, the probability of correct answer can then be calculated. このステップの後、正しい答えの確率を計算することができる。 0.76
In addition, this script also implements the True-Score (LordandWingersky,19 84)conceptexplainede arlier. さらに、このスクリプトはtrue-score (lordandwingersky, 1984)conceptexplaine dearlierを実装している。 0.62
Aiming to score the performance of classifiers. 分類器の性能評価を目指しています 0.68
The True-Score, later, is also used as input for the generation of the rating values of the Glicko-2 system that is used to evaluate the performance and the innate ability of the classifiers. 後のTrue-Scoreは、分類器の性能と本質的な能力を評価するために使用されるGlicko-2システムの評価値の生成のインプットとしても使われる。 0.85
4.6. decodIRT_create_benc hmark This last script works as a benchmark builder through IRT, it allows the user to create new benchmark sets within the OpenML platform, using the item parameters to choose thebestsetofdatasets . decodIRT_create_benc hmark この最後のスクリプトはIRTを通じてベンチマークビルダーとして機能し、ユーザーはアイテムパラメータを使用してOpenMLプラットフォーム内で新しいベンチマークセットを作成して、thebestsetofdatasetを選択することができる。 0.63
Forthis,thescriptuse sthedecodIRT tool as a library, where the user can choose from OpenML the set of datasets he wants to evaluate with the IRT, which item parameter he wants to use and the cut percentage. 例えば、thescriptusesthedeco dIRT ツールをライブラリとして使用し、ユーザは OpenML から評価したいデータセットのセットを選択できる。
訳抜け防止モード: 例えば、thescriptusesthedeco dIRTツールをライブラリとして使用し、ユーザはIRTで評価したいデータセットのセットをOpenMLから選択できる。 どの項目を使いたいのか カットパーセンテージは?
0.64
For example, the user can choose to choose the difficulty parameter with a percentage of cut of 20%, this means that the new benchmark will be composed of the 20% most difficult datasets from the original set. 例えば、ユーザは20%のカット率で難易度パラメータを選択することができる。これは、新しいベンチマークが元のデータセットから20%の難易度データセットで構成されていることを意味する。 0.74
Toaddnewbenchmarksin OpenML,theplatform’sStudy classisused. toaddnewbenchmarksin openml, theplatform’sstudy classisused。 0.76
Thisclassallowsusers tocreatecompletestud ies involving ML, ranging from the set of datasets used to whichalgorithmsandfo rmsofassessmentandtr ainingwere used OpenML (b). thisclassallowsusers tocreatecompletestud ies involved ml, whichalgorithmsandfo rmsofassessment andtrainingwere used openml (b) 0.41
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 7 of 15 15ページ7ページ。 0.73
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
4.7. Ranking of classifiers by the Glicko-2 system Due to the fact that rating systems are commonly used in competitions, to apply the Glicko-2 (Glickman, 2012) system to evaluate the classifiers, it was necessary to simulate a competition between them. 4.7. Glicko-2 システムによる分類器のランク付けは、Glicko-2 (Glickman, 2012) システムを用いて分類器の評価を行うため、それらの競合をシミュレートする必要があった。
訳抜け防止モード: 4.7. Glicko-2システムによる分類器のランク付け 評価システムは競争でよく使われます Glicko-2 (Glickman, 2012 ) システムを適用して分類器を評価する。 両者の競争をシミュレートする必要がありました
0.76
The simulated competition is an round-robin tournament, where each classifier will face each other and at the end of the competition will create a ranking with the rating of the models. 模擬競技はラウンドロビントーナメントであり、各分類器が互いに対決し、競技の最後にはモデルの格付けでランク付けされる。 0.58
Thecompetitionworksl ikethis: eachdatasetisseenasa classification period in the Glicko-2 system, so that all classifiers face off in each dataset. Thecompetitionworksl ike This: eachdatasetisseenasa classification period in the Glicko-2 system。 0.46
To define the winner of each contest,theTrue-Scor evaluesobtainedbythe modelsfacing each other are used. 各コンテストの勝者を定義するには、互いに対向するTrue-Scorevaluesobta ined bythemodelsを使用する。 0.64
This happens as follows: if the TrueScore value is greater than the opponent’s, it is counted as a victory; if the value is lower than that of the opponent, it is counted as a defeat; and if the values are equal, then it sets up a tie between the models. これは次のようになる: もしtruescore値が相手の値より大きいなら、それは勝利としてカウントされ、その値が相手の値よりも低い場合は、敗北としてカウントされ、その値が等しいなら、モデル間の結合を設定する。 0.69
In addition, the Glicko system asks the result of a match to assign a score to the opponents. さらに、Glickoシステムは試合の結果を尋ねて、相手にスコアを割り当てる。 0.58
For this, the scoring system applied in official Chess competitions was used, where victory counts as 1 point, defeat as 0 point and draw counts as 0.5 point. このために、公式のチェス競技に適用される得点方式が用いられ、勝利は1ポイント、敗は0ポイント、引き分けは0.5ポイントであった。 0.80
Thus, after each dataset the rating, RD and volatility values of the classifiers are updated and used as the initial value for the next dataset. これにより、データセット毎に、分類器のレーティング、RD、ボラティリティ値を更新し、次のデータセットの初期値として使用する。 0.68
Once all datasets are finalized, the final rating values are used to create the final ranking that will be used to evaluate the models. すべてのデータセットが完成したら、最終評価値を使用して、モデルの評価に使用される最終ランキングを作成する。 0.77
4.8. OpenML-CC18 datasets OpenML-CC18 was chosen to be the case study of this work, which has as one of the main objectives to evaluate benchmarks through the IRT lens, in order to give greater reliability in the use of this benchmark. 4.8. OpenML-CC18データセット OpenML-CC18はこの研究のケーススタディに選ばれ、このベンチマークの使用の信頼性を高めるためにIRTレンズを通じてベンチマークを評価する主な目的の1つとなった。 0.77
This section will present the datasets that were selected from OpenML-CC18 to be evaluated using the decodIRT tool. ここでは、OpenML-CC18から選択したデータセットを示し、decodIRTツールを使って評価する。 0.71
Despite having 72 datasets, only 60 were used in this work. 72のデータセットがあるにもかかわらず、この研究には60しか使われなかった。 0.54
This was for two main reasons: 主な理由は2つあります 0.64
1. The size of the datasets, where 11 have more than 30,000 instances, were soon considered too large and would take a long time to run all decodIRT models; 2. 1. 11が30,000以上のインスタンスを持つデータセットのサイズは、すぐに大きすぎると考えられ、すべてのdecodIRTモデルを実行するのに長い時間がかかるだろう。 0.82
Could not generate item parameters for dataset “Pc4”. データセット“Pc4”の項目パラメータは生成できない。 0.82
R’s Ltm package could not converge even using just under 500 test instances. RのLtmパッケージは500以上のテストインスタンスを使っても収束できなかった。 0.80
Despite this, the final amount of datasets used still corresponds to 83.34% of the original benchmark. しかし、最終的に使用されるデータセットの量は、オリジナルのベンチマークの83.34%に相当する。 0.61
All datasets evaluated are from tabular data and the characterization of the benchmark will be further explored in the next sections. 評価されたデータセットはすべて表データであり、ベンチマークのキャラクタリゼーションは次のセクションでさらに検討される。 0.74
4.9. Assessment of innate ability Giventhedefinitionofinnateabilit yexplainedintheprevi oussection,itisunder stoodthatitsassessme ntcanbedone as follows: 4.9. 先天切開における自然能力の評価 : 以下のとおりである。 0.54
1. A benchmark composed of several datasets with different characteristics is defined. 1. 特徴の異なる複数のデータセットからなるベンチマークを定義する。 0.78
The chosen benchmark is OpenML-CC18 itself; 選択されたベンチマークはOpenML-CC18自身である。 0.46
2. A pool of classifiers composed of algorithms from the same family or from different families is assembled, alwayskeepingthesame configurationforeachmodel . 2. 同一のファミリーまたは異なるファミリーのアルゴリズムからなる分類器のプールが組み立てられ、常に設定フォーマットが保持される。 0.73
For this, the same set of real classifiers as decodIRT will be used; 3. このために、decodirtと同じ実クラス化子セットが使用される。 0.51
Testthedifferentalgorithmsonthe benchmarkdatasets. Testthedifferentalgo rithmsonthebenchmark datasets 0.13
Step already performed by decodIRT; 4. ステップはすでにdecodirtによって実行されています。 0.43
Different subsets of benchmarks are assembled from the original set. ベンチマークの異なるサブセットは、元のセットから組み立てられる。 0.66
The subsets are assembled from the IRT estimators with decodIRT; 5. サブセットは、decodIRT; 5でIRT推定器から組み立てられる。 0.69
For each subset of the benchmark, the rating ranking will be generated by the Glicko-2 system; 6. ベンチマークの各サブセットに対して、評価ランキングはglicko-2システムによって生成される。 0.76
The model with the best and most consistent performance is chosen as the one with the best innate ability. 最高のパフォーマンスと最も一貫したパフォーマンスを持つモデルは、最高のインナート能力を持つモデルとして選択されます。 0.69
5. Results and discussion TheevaluationoftheOp enML-CC18benchmarkth rough the IRT lens was done around the discrimination and difficulty parameters. 5. Theevaluation ofthe OpenML-CC18benchmark through the IRT Lens was done around the discrimination and difficulty parameters。 0.80
It is understood that these parameters are directly linked to the data, in comparison with the guessing parameter that is more linked to the performance of the respondents. これらのパラメータはデータに直接リンクされることが理解されており、回答者のパフォーマンスとより関連のある推測パラメータと比較することができる。 0.82
The objective then is to evaluate the discriminatory power along with the difficulty of the datasets and later use them to evaluate the models performance 3. その目的は、データセットの難易度とともに識別能力を評価し、その後モデル性能3を評価することである。 0.67
5.1. Decoding OpenML-CC18 Benchmark 5.1. OpenML-CC18ベンチマークのデコード 0.58
It shows the percentages of difficult and very disFigure 2: criminative instances arranged in ascending order. 難易度と非常に不規則な割合を示す2: 基準インスタンスが順に並べられている。 0.56
There is a certain percentage of discrimination and a percentage of difficulty that are in the same position on the X axis do not necessarily correspond to the same dataset. 一定の割合の識別と、x軸上の同じ位置にある難易度は、必ずしも同じデータセットに対応していない。 0.64
“tic-tac-toe”, “creditapproval” and “optdigits” are respectively the datsets with the most difficult instances. tic-tac-toe”, “creditapproval”, “optdigits” はそれぞれ,最も難しいインスタンスを持つdatsetである。 0.74
While “banknote-authenticat ion”, “analcatdata_authorsh ip” and “texture” are the most discriminative. banknote-authenticat ion” は "analcatdata_authorsh ip" と "texture" が最も区別される。 0.80
When looking at Figure 2, it is possible to notice an inversion relationship between the parameters of difficulty and discrimination. 図2を見ると、難易度と差別度のパラメータ間の逆関係に気づくことができる。 0.64
So, the rankings generated by the two parametersrevealthat themostdiscriminatin gdatasetsarealso 3All classification results can be obtained at https://osf.io/wvptb / したがって、2つのパラメータrevealthethemostdisc riminatingdatasetsar e also 3 All classification resultsはhttps://osf.io/wvptb /で取得できる。 0.42
files/ Cardoso, L. et al : Preprint submitted to Elsevier ファイル/ Cardoso, L. et al : Elsevierに提出されたプレプリント 0.75
Page 8 of 15 15ページ8ページ。 0.72
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
the least difficult and vice versa 4. 最も難易度が低く、逆もまた4である。 0.53
This relationship is consistent with what is expected by the IRT, where it is normal that the easiest instances are good to differentiate the good from the bad classifiers, as it is thought that the more skilled classifiers will hit the easiest instances while the less skillful ones can make mistakes. この関係はIRTが期待するものと一致しており、最も簡単なインスタンスは、より熟練した分類器が最も簡単なインスタンスにヒットし、非熟練のインスタンスがミスを犯す可能性があるため、悪い分類器と良い分類器を区別するのが普通である。 0.74
Through this, it is possible to affirmthatthemoredifficultdatasetsarenotad equatetoseparate the good and bad classifiers, despite being more challenging. これにより、より困難であるにもかかわらず、より良質な分類器と悪質な分類器を分離することは可能である。
訳抜け防止モード: これにより可能となる。 より困難であるにもかかわらず 良い分類器と悪い分類器を分離する
0.52
Meanwhile, the easiest datasets are not suitable for testing the classification power of algorithms, but it allows to differentiate the best from the worst well. 一方、最も簡単なデータセットはアルゴリズムの分類能力をテストするには適していないが、最悪の井戸とベストを区別することができる。 0.74
Figure 4: Sum of all True-Scores obtained by the classifiers. 図4: 分類器によって得られるすべてのTrue-Scoresの要約。 0.66
real classifiers, MLP takes the lead, but with a True-Score value very close to Random Forest. 真の分類器、MLPはリードを取るが、True-Score値はランダムフォレストに非常に近い。 0.72
Although classifications similar to this one are the most common, in some specific cases the position of the classifiers is inverted and the worst models have the highest True-Score values, as can be seen in Figure 5. これに類似した分類は最も一般的なものであるが、特定のケースでは分類器の位置が反転し、最悪のモデルは図5に示すように最も高い真のスコアを持つ。 0.83
Figure 3: Histogram of the number of datasets by the percentage of discriminative and difficult instances. 図3: 差別的および困難なインスタンスの割合によるデータセット数のヒストグラム。 0.77
Amongtheevaluateddat asets,only7arereally challenging and have more than 50% of difficult instances. 評価されたデータセットのうち、only7arereallychalle ngingは難しいインスタンスの50%以上を持っている。 0.42
While 49 of the total have less than 27% of difficult instances. 全体の49パーセントが難しいインスタンスの27%に満たない。 0.59
This means that only 11.67% of the total evaluated datasets are hardwhile81.67%havem orethan70%easyinstan ces. つまり、評価されたデータセットの11.67%は硬く、81.67%havemorethanea syinstancesである。 0.61
Therefore, the OpenML-CC18 benchmark should be used with cautionandtakinginto accountthepurposeofi tsuse. したがって、OpenML-CC18ベンチマークは、注意と注意を払わなければならない。 0.42
Figure 3 reinforces the high discriminatory capacity of the benchmark, where only 1/4 of the datasets have less than 50% of low discriminatory instances and more than half of the total have at least 80% of highly discriminatory instances. 図3は、ベンチマークの高い差別能力を強化し、データセットの1/4だけが低い差別インスタンスの50%未満を持ち、全体の半数以上が高い差別インスタンスの少なくとも80%を持っている。 0.65
From this, it is possible to infer that OpenML-CC18 is not considered as challenging as expected, but it has many appropriate datasets to differentiate the good and bad classifiers. このことから、OpenML-CC18は期待したほど難しいものではなく、良質な分類器と悪質な分類器を区別する適切なデータセットが多数存在すると推測できる。 0.64
In addition, item parameters allow the benchmark to be chosen more specifically. さらに、項目パラメータによって、ベンチマークをより具体的に選択できる。 0.61
For example, if the objective is solely to test the algorithms classification power, only the most difficult datasets can be used, disregarding testing with the entire benchmark. 例えば、アルゴリズムの分類能力をテストすることだけを目的としている場合、ベンチマーク全体によるテストを無視して、最も難しいデータセットのみを使用できる。 0.74
5.2. Classifiers performance on OpenML-CC18 When taking into account only True-Score values obtained by the classifiers it is already possible to notice a pattern in their respective performances and create a ranking (see Figure 4). 5.2. OpenML-CC18における分類器のパフォーマンス 分類器が取得したTrue-Score値のみを考慮すると、それぞれの性能のパターンに気づき、ランキングを作成することができる(図4参照)。 0.74
It is observed that the artificial classifiers assumed extreme positions in the ranking, as expected. 人為的な分類は、予想通り極端にランク付けされた。
訳抜け防止モード: 観察されている。 人工分類器は 予想通り ランキングの極端な位置にあった。
0.66
For 4Parameter rankings can be accessed at: https://osf.io/jpygd / のために https://osf.io/jpygd /。 0.36
Figure 5: The True-Score values obtained for the “jm1” dataset. 図5: “jm1”データセットで得られたtrue-score値。 0.80
This situation can happen due to the occurrence of many instanceswithnegativ evaluesofdiscriminat ion. この状況は、負の値を持つ多くのインスタンスが発生するために起こりうる。 0.46
Astheyare not expected by the IRT, negative values usually mean that thereissomethingwron gwiththeitemitself. IRTが予想していなかったように、負の値は通常、それ自身でそれを行うことを意味する。 0.45
Forpsychometric tests, this could mean a poorly formulated and ambiguous question, for example. 例えば、心理学のテストでは、これは不定形であいまいな質問を意味する可能性がある。 0.47
When placing this concept in the ML field, negative discrimination may indicate some inconsistency in the instance, such as noise or outlier. この概念をMLの分野に配置する場合、負の差別は、ノイズや外れ値のようなインスタンス内のいくつかの矛盾を示す可能性がある。 0.57
Therefore, itcanbeinferredthatd atasetswithmanyinsta nceswithnegative discrimination may not be suitable for the formulation of a good benchmark. したがって、itcanbeinferredthatd atasetswithmanyinsta nceswith negative discriminationは良いベンチマークの定式化には適さない。 0.36
A possible future work would be to carefully analyze whether dataset characteristics are linked tothesesituationsand howthiscanaffecttheperformanceof models. 将来的な研究は、データセットの特徴がモデルの性能に関係しているかどうかを慎重に分析することであろう。 0.54
OpenML already has an extensive set of metadata about its datasets that can be used for this purpose. OpenMLには、この目的で使用可能なデータセットに関する広範なメタデータセットがすでにある。 0.82
5.3. Classifiers performance by Glicko-2 Although the True-Score values obtained already make it possible to observe and evaluate the performance of the classifiers,thereisstillalar geamountofdatatobeev aluated individually before being able to point out which algorithm 5.3. Glicko-2による分類器の性能 得られたTrue-Score値は、既に分類器の性能を観察し評価することができるが、どのアルゴリズムを指摘できる前に個別に評価される。 0.70
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 9 of 15 15ページ9ページ。 0.73
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
has the best innate ability. 最高の能力を持っています 0.66
Therefore, the Glicko-2 system was applied in order to summarize the generated data and identify the “strongest” algorithm. そこで,Glicko-2システムを用いて生成したデータを要約し,「ストロンゲスト」アルゴリズムを同定した。 0.72
Table 1 presents the final rating ranking that was obtained. 表1は、得られた最終格付けを示す。 0.66
Table 1 Classifier rating ranking. 表1 分類器のランキング。 0.76
Rating 1732.56 1718.65 1626.60 1606.69 1575.26 1571.46 1569.48 1554.15 1530.86 1528.41 1526.10 1494.87 1457.78 1423.01 1374.78 1337.27 1326.38 1301.08 1270.46 Rating 1732.56 1718.65 1626.60 1606.69 1575.26 1571.46 1569.48 1554.15 1530.86 1528.41 1526.10 1494.87 1457.78 1423.01 1374.78 1337.27 1326.38 1301.08 1270.46 0.42
RD 33.25 31.20 30.33 30.16 30.41 31.16 32.76 30.74 31.25 30.40 30.27 32.64 30.25 30.66 30.27 30.95 31.42 31.74 31.74 RD 33.25 31.20 30.33 30.16 30.41 31.16 32.76 30.74 31.25 30.40 30.27 32.64 30.25 30.66 30.27 30.95 31.42 31.74 31.74 0.42
Volatility 0.0603 0.0617 0.0606 0.0621 0.0646 0.0674 0.0772 0.0646 0.0683 0.0638 0.0630 0.0770 0.0638 0.0631 0.0605 0.0600 0.0610 0.0666 0.0603 Volatility 0.0603 0.0617 0.0606 0.0621 0.0646 0.0674 0.0772 0.0646 0.0683 0.0638 0.0630 0.0770 0.0638 0.0631 0.0605 0.0600 0.0610 0.0666 0.0603 0.42
Classifier optimal MLP RandomForest RandomForest(5_trees ) RandomForest(3_trees ) DecisionTree SVM KNeighbors(3) GaussianNB KNeighbors(2) KNeighbors(5) BernoulliNB KNeighbors(8) minority rand2 rand3 rand1 majority pessimal As in the True-Score ranking (see Figure 4) the position of the artificial classifiers is as expected. 分類器最適化 MLP RandomForest RandomForest(5_trees ) RandomForest(3_trees ) DecisionTree SVM KNeighbors(3) GaussianNB KNeighbors(2) KNeighbors(5) BernoulliNB KNeighbors(8) minority rand2 rand3 rand1 majority pessimal True-Score Rank(図4参照)と同様に、人工分類器の位置は期待通りである。 0.94
Optimal leads while the other artificial classifiers have ratings lower than all real classifiers, where it is also the MLP that has the highest rating among the real ones. 他の人工分類器はすべての実分類器よりも格付けが低いが、実分類器の中でも最も高い格付けを持つMLPでもある。 0.69
However, MLP is closer to Optimal’s rating than RF is in third place. しかし、mlpはrfが3位であるよりも最適評価に近い。 0.47
This situation differs from the True-Score ranking and from what was expected, as it was thought that Optimal would have a rating much higher than the others. この状況は、True-Scoreランキングと、Optimalが他のものよりもはるかに高い評価を受けると考えられることから、期待されていたものとは異なる。 0.68
Despite the proximity of the rating of the MLP and Optimal be surprising, the strength of the MLP can be confirmed by observing the low volatility value. MLPとOptimalのレーティングに近接しているにもかかわらず、低ボラティリティ値を観察することで、MLPの強度を確認することができる。 0.74
Overall, volatility is lowforallclassifiers, withcaveatsforSVMand NaiveBayes Bernoulli which have the highest volatility values respectively. 全体として、ボラティリティは低い分類子であり、それぞれ最もボラティリティリティの値が高いcaveatsforsvmandnaiv ebayes bernoulliである。 0.45
ThismeansthatSVMandN BBernoullihavethelea st reliable rating values of all, so they are more likely to vary widely within their respective RD ranges. ThismeansthatSVMandN BBernoullihavethelea st reliable rating values of all。 0.63
Furthermore, if you consider a high fluctuation in ratings within their RD ranges, the final ranking position may change sharply. さらに、RD範囲内のレーティングの高い変動を考慮すると、最終的なランキング位置は急変する可能性がある。 0.70
For example, considering the largest negative change in MLP’s RD, its new rating will be 1656.25. 例えば、MDPのRDの最大のネガティブな変化を考えると、新しいレーティングは1656.25になる。 0.61
This would allow raters up to 4th place to be able to outperform the MLP should their ratings fluctuate as much upward as possible. これにより、格付けが可能な限り上向きに変動すれば、最大4位までMLPを上回ります。 0.50
However, for raters from 5th position onwards, nomodelcouldreachthe MLP,evenwiththemaxim umfluctuation of their ratings as well. しかし,第5位以降のラッカーに対しては,Nomodelcouldreachth eMLP,Nomodelcouldrea chtheMLPは評価の最大変動を伴わない。 0.62
Therefore, it is understood that there are groups of classifiers that have equivalent strength, where among the first three real classifiers, it is not possible to say precisely which one is the strongest in the challenge proposed by OpenML- したがって、同一の強度を持つ分類器群が存在し、最初の3つの実分類器の中で、OpenMLが提案した挑戦の中でどれが最強であるかを正確に言うことはできない。 0.71
CC18. However, this situation also allows us to assume that the innate ability of MLP is better than that of algorithms below 4th position. CC18。 しかし、この状況はまた、MLPの自然能力が4位以下のアルゴリズムよりも優れていると仮定することもできる。 0.79
Because, given the fact that tests were performed with several different datasets that have different IRT estimators, always keeping the model configuration, it can be assumed that the results obtained reflect the innate ability of the learning algorithms. IRT推定器が異なる複数の異なるデータセットでテストが実行され、常にモデル構成が維持されているという事実を考えると、得られた結果は学習アルゴリズムの本質的な能力を反映していると仮定できる。 0.76
It is also important to point out that the optimization of models can have a fine-tuning effect on the decision limits of the classifiers, resulting in better performance in the most difficult datasets. また、モデルの最適化が分類器の決定限界に微調整効果をもたらす可能性があることを指摘し、最も難しいデータセットでパフォーマンスが向上することも重要である。 0.86
However, this approach would not allow for a clean analysis of the models’ innate ability. しかし、このアプローチはモデル固有の能力のクリーンな分析を可能にするものではない。 0.76
In order to provide greater credibility for the rating values that were generated, the Friedman test (Pereira, Afonso and Medeiros, 2015) was performed. 生成した評価値に対する信頼性を高めるため、フリードマン試験(pereira, afonso and medeiros, 2015)を行った。 0.62
With this, the aim is to identify whether through the rating values, in fact, it is possible to differentiate the algorithms’ innate ability. これによって、評価値を通じてアルゴリズムの生来の能力を区別できるかどうかを判断することが可能になる。 0.73
The Friedman test was calculated using only the rating values of the real classifiers, as they are the focus of the study. フリードマン試験は実分類器の評価値のみを用いて計算された。
訳抜け防止モード: フリードマン試験が計算された 実際の分類器の 評価値だけを使って 研究の焦点です
0.63
Its execution resulted in a p-value of approximately 9.36 × 10−80. その結果、p値はおよそ9.36×10−80となった。 0.60
Thelowp-valueobtaine dmeansthat, infact, differentdistributions of ratings were found, which allowed the execution of the Nemenyi test (Nemenyi, 1962). Thelowp-valueobtaine dmeans that, inact, differentdistributio ns of ratings were found, which could the execution of the Nemenyi test (Nemenyi, 1962)。 0.87
The Nemenyi test is appliedtoidentifywhi chdistributionsdifferfromeachother. Nemenyi test is appliedtoidentifywhi chdistributionsdiffe rfromeachother。 0.21
Figure 6 presents a Heatmap of the Nemenyi test. 図6は、ネメニイテストのヒートマップを示します。 0.78
Figure 6: Heatmap generated from the Nemenyi Test, using only the rating distributions of the real classifiers. 図6: 実際の分類器のレーティング分布のみを使用して、nemenyiテストから生成されたヒートマップ。 0.76
When analyzing the Heatmap, it is noted that the assumption of the existence of groups is proven. ヒートマップを解析する際には、群の存在を仮定することが証明される。 0.60
For, the first three classifiers that have the highest ratings also have high p-value. 例えば、最高評価を持つ最初の3つの分類器も高いp値を持つ。 0.73
This means that the Nemenyi test cannot differentiate them. これはネメニイ検定では区別できないことを意味する。 0.66
And although they have the best performers, they all have a p-value for at least one lower performer. そして、彼らは最高のパフォーマーを持っていますが、全員が少なくとも1つの下位パフォーマーに対してp値を持っています。 0.39
Other classifiers also have a high p-value, even though they are from different algorithm families. 他の分類器は、異なるアルゴリズムファミリであるにもかかわらず、高いp値を持つ。 0.69
Therefore, it is not evident that there is a clear separation of classifiers from different groups. したがって、異なる群からの分類器の明確な分離が存在することは明らかではない。 0.82
And this leads to believe that, although the Friedman test indicates the existence of distinct groups of このことは、フリードマン検定は異なる群の群の存在を示唆するが、それを信じることに繋がる。 0.56
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 10 of 15 15頁10頁。 0.71
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
classifiers, these differences are not statistically significant to indicate with certainty which algorithm is more skillful. 分類器、これらの違いは、どのアルゴリズムがより熟練しているかを確実に示すために統計的に重要なものではない。 0.49
Basedontheabove,adee peranalysisoftheperf ormance of the algorithms is necessary in order to define which in fact has the greatest innate classification ability. アルゴリズムのアデペアナリシスは、どのアルゴリズムが本質的に最も優れた分類能力を持っているかを定義するために必要である。
訳抜け防止モード: basedontheabove, adeeperanalysis of the performance of the algorithm is required in order 自然界で最大の分類能力を持つものを定義します
0.82
For this, different subsets of OpenML-CC18 were generated, chosen from the estimators of the IRT, to then choose the algorithm that presented the best innate ability. このために、openml-cc18の異なるサブセットが作成され、irtの推定子から選択され、最適な固有能力を示すアルゴリズムを選択する。 0.66
Furthermore, it will also be explored whether, within the generated benchmark subsets, there is one more efficient than the original. さらに、生成されたベンチマークサブセット内にオリジナルのものよりも1つ効率的かどうかも検討される。 0.71
5.4. Efficient benchmark by decodIRT AccordingtoSmithandM artinez(2014),notall instances of a dataset are equally beneficial for learning. 5.4. smithandmartinez氏(2014)によると、データセットのすべてのインスタンスが学習に等しく有益である。 0.65
This means that some instances can help more than others in the model induction process, and it is even possible to have instances thathinderlearning. これは、いくつかのインスタンスがモデル誘導プロセスにおいて他のインスタンスよりも多くの助けができることを意味する。 0.62
Byexpandingthisideat oahigherlevel, it is possible to imagine that in a benchmark, not all datasets are equally beneficial for evaluating models. ベンチマークでは、すべてのデータセットがモデル評価に等しく有益ではないことを、expandingthisideatoa higherlevelによって想像することができる。 0.56
Fromthis,onecanimagi nethatwithinabenchma rkthere may be a subset of datasets that is as good, or even better, thantheoriginalbench mark. このことから、onecanimagine thatwithinabenchmark thereは、元来のbenchmarkと同等、あるいはそれ以上のデータセットのサブセットである可能性がある。 0.67
Throughthis,itisalso believed that decodIRT can help to find more efficient benchmarks. これを通じて、decodIRTはより効率的なベンチマークを見つけるのに役立つと信じている。 0.43
Because using the item parameters of the IRT it is possible to select the datasets that present the highest percentage of instances with high values for each one of the item parameters. IRTの項目パラメータを使用すると、各項目パラメータに対して高い値を持つインスタンスの最も高い割合を示すデータセットを選択することができる。 0.79
Accordingtotheresult spresentedabove,itis knownthat the datasets occupy opposite positions in the Discrimination and Difficulty rankings. 識別と難易度ランキングでは、データセットが反対の位置を占めることが知られている。 0.46
Therefore, it is understood that to generate a more efficient subset of datasets it is necessary to take into account the values of both parameters. したがって、データセットのより効率的なサブセットを生成するためには、両方のパラメータの値を考慮する必要がある。 0.82
To assess whether there is a subset of OpenML-CC18 that is equally good or better than the original, three cutoff percentages were defined - 30%, 50% and 70% - to select the most difficult and discriminating set of datasets using the decodeIRT. OpenML-CC18のサブセットがオリジナルより同等に優れているかどうかを評価するために、3つのカットオフパーセンテージ – 30%、50%、70% – が定義され、decodeIRTを使用して最も難しく差別的なデータセットセットを選択した。 0.71
For example, for cutting 30%, it will be the most discriminating 15% datasets and the most difficult 15% datasets. 例えば30%のカットでは、最も差別化された15%データセットと、最も難しい15%データセットとなる。 0.77
The assessment of the quality of the subsets is performed by analyzing the Glicko rating rankings generated after each percentage cut. 各パーセンテージカット後に生成されたGlicko格付けを解析して、サブセットの品質の評価を行う。 0.69
By looking at the ratings generated by the 70% set (see Table 2). 70%のセットで生成された評価を見てみましょう(表2参照)。 0.76
There are some variations in the positions of the real and artificial classifiers. リアルと人工の分類器の位置にはいくつかのバリエーションがある。 0.72
In this new ranking, Random Forest took the lead over MLP, but it still has a rating value very close to the Optimal classifier, a situation that should notoccurgiventhechar acteristicsofOptimal . この新しいランキングでは、ランダムフォレストがMLPよりも優位に立ったが、まだ最適分類器に非常に近い評価値であり、これは最適でないという状況である。 0.65
Anotherpoint to consider is the proximity of the rating values in the 70% set. もう1つの考慮すべきポイントは、70%セットのレーティング値の近接である。 0.64
Because,consideringt hemaximumvariationof therantings in their respective RD intervals, the Optimal classifier can be reached by the KNeighbors(2) classifier, which is in the 8th position of the ranking. それぞれのRD区間における最大偏差を考えると、最適分類器はランクの8番目の位置にあるKNeighbors(2)分類器によって到達できる。 0.80
Such a condition makes it moredifficulttotrytoseparatet heclassifiersbytheirstrength. このような条件により、よりディフィシクルトトリートセパレート分類器bytheirstrengthとなる。 0.30
However, despite the proximity of ranking between the real classifiers and Optimal, the new benchmark set had a good positive point. しかし、実際の分類器とOptimalのランキングの近さにもかかわらず、新しいベンチマークセットは良い正の点を持っていた。
訳抜け防止モード: しかし、実分類器と最適分類器のランキングが近かったにもかかわらず、 新しいベンチマークセットは好意的だった。
0.66
The ranting difference between the last real classifier and the first classifier among the artificial ones 最後の実分類器と人工分類器における第1分類器のランニング差 0.75
that occupy the lower part of the table has increased significantly. テーブルの下部を占めるものが大幅に増加しています。 0.78
The original benchmark ranking value (see Table 1) has increased from 34.77 to 155.3, which makes real classifiers unreachable for artificial classifiers. 当初のベンチマークランキング値(表1)は34.77から155.3に増加しており、実際の分類器は人工分類器には到達できない。 0.63
And this situation is in line with what was expected given the large differences in performance and probably occurs due to the greater discriminative capacity of the datasets. そして、この状況は、パフォーマンスの大きな違いから予想されたことと一致しており、おそらくデータセットの判別能力が大きいためである。 0.71
Table 2 Classifier rating ranking by benchmark subset 70%. 表2 ベンチマークサブセットによる分類格付けの70%。 0.80
Classifier optimal RandomForest MLP RandomForest(5_trees ) RandomForest(3_trees ) KNeighbors(8) KNeighbors(5) KNeighbors(2) SVM GaussianNB DecisionTree BernoulliNB KNeighbors(3) majority rand3 rand2 minority pessimal rand1 Forthesetof50%,thefinalperformanceofthec lassifiers and their ranking order is the closest to what was expected (see Table 3). 分類器最適化 RandomForest MLP RandomForest(5_trees ) RandomForest(3_trees ) KNeighbors(8) KNeighbors(5) KNeighbors(2) SVM GaussianNB DecisionTree BernoulliNB KNeighbors(3) majority rund3 rand2 minority pessimal rand1 Forthesetof50%,thefi nal performanceoftheclas sifiers and their rank order is most to be expected。 0.90
Volatility 0.0601 0.0599 0.0604 0.0605 0.0632 0.0629 0.0638 0.0629 0.0677 0.0684 0.0661 0.0708 0.0627 0.0637 0.0600 0.0604 0.0611 0.0606 0.0607 Volatility 0.0601 0.0599 0.0604 0.0605 0.0632 0.0629 0.0638 0.0629 0.0677 0.0684 0.0661 0.0708 0.0627 0.0637 0.0600 0.0604 0.0611 0.0606 0.0607 0.42
Rating 1689.83 1672.18 1643.37 1628.19 1621.54 1604.03 1602.32 1580.18 1556.00 1547.81 1540.01 1526.66 1519.88 1364.58 1323.52 1315.71 1295.84 1291.72 1287.40 Rating 1689.83 1672.18 1643.37 1628.19 1621.54 1604.03 1602.32 1580.18 1556.00 1547.81 1540.01 1526.66 1519.88 1364.58 1323.52 1315.71 1295.84 1291.72 1287.40 0.42
RD 31.59 30.67 29.99 30.17 30.17 30.17 30.19 29.90 30.74 31.13 30.55 31.45 29.81 30.59 30.45 30.42 30.98 31.00 31.11 RD 31.59 30.67 29.99 30.17 30.17 30.17 30.19 29.90 30.74 31.13 30.55 31.45 29.81 30.59 30.45 30.42 30.98 31.00 31.11 0.42
Table 3 Classifier rating ranking by benchmark subset 50%. 表3 分類器 ベンチマークによるランク付け 50%。 0.77
Classifier optimal RandomForest MLP RandomForest(5_trees ) RandomForest(3_trees ) KNeighbors(2) KNeighbors(8) KNeighbors(5) KNeighbors(3) BernoulliNB SVM DecisionTree GaussianNB majority rand3 rand1 rand2 minority pessimal RandomForest MLP RandomForest(5_trees ) RandomForest(3_trees ) KNeighbors(2) KNeighbors(8) KNeighbors(5) KNeighbors(3) BernoulliNB SVM DecisionTree GaussianNB majority rund3 rund1 rand2 minority pessimal 0.94
Rating 1724.29 1678.31 1655.45 1644.98 1634.40 1620.72 1593.82 1591.09 1569.81 1558.71 1549.54 1522.45 1510.21 1377.13 1287.90 1276.45 1274.34 1264.92 1244.41 Rating 1724.29 1678.31 1655.45 1644.98 1634.40 1620.72 1593.82 1591.09 1569.81 1558.71 1549.54 1522.45 1510.21 1377.13 1287.90 1276.45 1274.34 1264.92 1244.41 0.42
RD 32.78 31.21 30.52 30.84 30.32 30.33 30.30 30.31 30.09 31.32 31.14 30.66 30.64 30.63 31.64 31.75 31.41 31.75 32.16 RD 32.78 31.21 30.52 30.84 30.32 30.33 30.30 30.31 30.09 31.32 31.14 30.66 30.64 30.63 31.64 31.75 31.41 31.75 32.16 0.42
Volatility 0.0601 0.0600 0.0602 0.0600 0.0618 0.0609 0.0621 0.0628 0.0603 0.0672 0.0676 0.0646 0.0635 0.0623 0.0600 0.0602 0.0601 0.0601 0.0604 Volatility 0.0601 0.0600 0.0602 0.0600 0.0618 0.0609 0.0621 0.0628 0.0603 0.0672 0.0676 0.0646 0.0635 0.0623 0.0600 0.0602 0.0601 0.0601 0.0604 0.42
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 11 of 15 15頁11頁。 0.72
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
Despite the difference in some of the ranking positions. 地位の差はあるものの、一部は異なる。 0.68
The positive points obtained in the cutoff of 70% were maintained in the new classification, as the big difference in ranting between artificial and real classifiers. 新しい分類では, 実分類器と人工分類器の大きな違いとして, 70%のカットオフで得られた正の点が維持された。 0.77
Furthermore, the position of the artificial classifiers was as expected. さらに, 人工分類器の位置は期待通りであった。 0.80
Where, the Majority classifier is the one with the highest position, followed by the random three, the Minority and ending with the Pessimal. ここで、多数派分類器は最も高い位置にあるもの、ランダムな3つ、少数派、そして悲観派によって終わるものである。 0.59
Another positive point obtained was the increase in the maximum rating value and consequently the increase in the difference between Optimal and Random Forest, which remained as the best real classifier. もう1つのポジティブな点は、最大レーティング値の増加と、最適森林とランダム森林の差の増加であり、それが最良の実分類器として残った。 0.65
Furthermore, it is possible to observe a grouping of classifiers that belong to the same model family. さらに、同じモデルファミリーに属する分類器のグループ化を観察することも可能である。 0.81
This situation is also consistent with the expected final result, as it is imagined that classifiers from the same family have a similar performance. この状況は、同じファミリーの分類器が同じようなパフォーマンスをすることが想像されるため、最終的な結果とも一致している。 0.74
Themoredatasetsarefilteredforthemostdisc riminating and difficult, the more evident the rating difference between real and artificial classifiers becomes, as can be seen in the ranking with 30% of the benchmark (see Table 4). Themoredatasetsarefi lteredfor the mostdiscriminating and difficult, more clearly the rating difference between real and artificial classifiers, as can see in the ranking with 30% of the benchmark (表4参照)。 0.77
Where the rating difference between Optimal and Random Forest exceeds 100 points. 最適林とランダム林のレーティングの差が 100ポイントを超えます 0.74
Table 4 Classifier rating ranking by benchmark subset 30%. 表4 分類器 ランキング ベンチマークによるランキング 30%。 0.75
RD 34.67 32.64 31.68 31.59 31.95 31.73 31.25 31.33 30.96 31.50 31.62 31.22 31.29 31.77 32.52 33.44 32.88 34.00 35.12 RD 34.67 32.64 31.68 31.59 31.95 31.73 31.25 31.33 30.96 31.50 31.62 31.22 31.29 31.77 32.52 33.44 32.88 34.00 35.12 0.42
Rating 1848.59 1734.63 1697.76 1680.40 1644.92 1624.71 1606.95 1564.72 1560.64 1536.59 1531.65 1529.08 1524.85 1345.71 1336.60 1295.49 1292.05 1254.62 1213.69 Rating 1848.59 1734.63 1697.76 1680.40 1644.92 1624.71 1606.95 1564.72 1560.64 1536.59 1531.65 1529.08 1524.85 1345.71 1336.60 1295.49 1292.05 1254.62 1213.69 0.42
Volatility 0.0616 0.0600 0.0601 0.0600 0.0601 0.0602 0.0603 0.0604 0.0608 0.0631 0.0637 0.0620 0.0622 0.0616 0.0601 0.0600 0.0601 0.0602 0.0603 Volatility 0.0616 0.0600 0.0601 0.0600 0.0601 0.0602 0.0603 0.0604 0.0608 0.0631 0.0637 0.0620 0.0622 0.0616 0.0601 0.0600 0.0601 0.0602 0.0603 0.42
Classifier optimal RandomForest MLP RandomForest(5_trees ) KNeighbors(3) KNeighbors(2) KNeighbors(5) KNeighbors(8) RandomForest(3_trees ) BernoulliNB GaussianNB DecisionTree SVM majority rand2 minority rand3 rand1 pessimal However,itisnotedtha tthepositionoftheart ificialclassifiers has changed. 分類器最適化のRandomForest MLP RandomForest(5_trees ) KNeighbors(3) KNeighbors(2) KNeighbors(5) KNeighbors(8) RandomForest(3_trees ) BernoulliNB GausssianNB DecisionTree SVM majority rund2 minor rand3 rund1 pessimal しかし、人工分類器の配置は変化した。
訳抜け防止モード: RandomForest MLP RandomForest(5_trees ) KNeighbors(3 ) KNeighbors(2 ) KNeighbors(5 ) KNeighbors(8 ) RandomForest(3_trees ) BernoulliNB GaussianNB DecisionTree SVM majority rund2 minor rund3 rand1 pessimal But Theposition of Artificialclassifier s は変化した。
0.92
The expected order that was reached by the ranking with a cut of 50% has changed and the artificial Minority classifier has come out of second to last place and has a rating value very close to the Majority classifier. 50%の削減でランキングに到達した期待される順序が変更され、人工マイノリティ分類器は2位から最終位に上がり、多数派分類器に非常に近い評価値を持つ。 0.66
This situation possibly occurs due to the smaller amount of datasetsforevaluatio nandthelowerdiscrimi nationpowerin half of the benchmark, as only 18 datasets are used in which 9 have low discrimination values because they are the most difficult. この状況は、ベンチマークの半数で、最も難しいため9つの識別値が低い18のデータセットしか使われていないため、より少ないデータセットと低い識別能力のために起こりうる。 0.68
Such condition can be better observed in Table 5. このような状態は表5でよりよく観察できる。 0.74
Note that the set of datasets resulting from the 30% cut has the lowest mean and highest standard deviation of Dis- 30%カットで得られたデータセットの集合は、Disの最も低く最も標準偏差が高いことに注意。 0.75
crimination. And simultaneously presents the highest average percentage of Difficulty, but with the highest standard deviation as well. 犯罪だ そして同時に、最も高い平均難易度を示すと同時に、最も高い標準偏差も示す。 0.69
This results in an unbalanced benchmark set that may not be adequate to evaluate models well. この結果、モデルを評価するのに十分でない不均衡なベンチマークセットが得られる。 0.68
As an example, we have the final position of Random Forest with three trees that appeared in the 5th position in the benchmarks with 100%, 70% and 50% of the total datasets, but which performed below the KNN algorithms for the set of 30%. 例えば、Random Forestの3つの木がベンチマークで5番目の位置を占め、全体のデータセットの100%、70%、50%はKNNアルゴリズム以下で30%の精度で実行されています。 0.64
When analyzing Table 5, it can be seen that the subset of 50% is the one with the most balanced discrimination and difficulty values. 表5を分析すると、50%のサブセットが最もバランスのとれた識別と難易度を持つ部分集合であることが分かる。 0.67
Because despite not having the greatest discriminatory power in the average, its final value differs only about 5% from the highest average, which was reached with the original benchmark. 平均で最大の差別力を持っていないにもかかわらず、最終値は、最初のベンチマークで到達した最高値から5%程度しか変わっていない。 0.72
In addition, it is the second highest average difficulty subset at 25.19%, which also makes it more challenging. 加えて、25.19%で平均難易度で2番目に高い部分集合であり、さらに難しい。 0.74
Table 5 Comparison between the Discrimination and Difficulty percentages for each subset. 表5 各サブセットの識別と難易度の比較 0.56
Discrimination Difficulty 33% S. Deviation 差別 困難 33% S. Deviation 0.78
25.19% 20.44% 15.93% 25.19% 20.44% 15.93% 0.63
S. Deviation Average 33.71% 28.23% 25.26% 22.56% S. 脱離平均値 33.71% 28.23% 25.26% 22.56% 0.63
41.91% 38.72% 35.34% 30.78% 41.91% 38.72% 35.34% 30.78% 0.62
Average 30% 58.5% 50% 62.06% 70% 65.16% 100% 67.13% The empirical analysis of the rating values and the percentages of discrimination and difficulty of each benchmark subset shows that the 50% cut generated the most efficient and balanced subset. 平均30% 58.5% 50% 62.06% 70% 65.16% 100% 67.13% 評価値と各ベンチマークサブセットの識別と難易度を実証分析した結果、50%のカットで最も効率的でバランスの取れたサブセットが生成された。
訳抜け防止モード: 平均30 % 58.5 % 50 % 62.06 % 70 % 65.16 % 100 % 67.13 % 評価値の実証分析 それぞれのベンチマークサブセットの 差別と難易度は 50%のカットは 最も効率的でバランスの取れたサブセットを生成しました
0.84
This can also be confirmed by evaluating the variance and standard deviation of the RD and Volatility values generated by each rating ranking (see Table 6). これは、各レーティングランキングで生成されたRD値とボラティリティ値のばらつきと標準偏差を評価することで確認することもできる(表6参照)。 0.77
For the Glicko system, the lower the RD and Volatility values, the more reliable the ranking and rating values will be. Glicko システムでは、RD と Volatility の値が低いほど、ランキングとレーティングの値がより信頼性が高くなります。 0.75
By Table 6, it can be seen that the subset of 30% and the original benchmark present, respectively, the highest values of variance and standard deviation of RD. 表6では、それぞれ30%のサブセットと元のベンチマークが存在し、分散の最高値とRDの標準偏差が示される。
訳抜け防止モード: 表6では、サブセットが30%であることがわかる。 元のベンチマークでは,それぞれ,分散の最高値とRDの標準偏差が示された。
0.73
This means, that some classifiers have very high variation ranges, such as the artificial Optimal and Pessimal classifiers. これは、いくつかの分類器が人工最適分類器や悲観的分類器のような非常に高い変動範囲を持つことを意味する。
訳抜け防止モード: つまり 一部の分類器は、人工最適分類器やペシカル分類器など、非常に高い変動範囲を持つ。
0.70
Despite this, the 30% subset has the smallest volatility variations, revealing an imbalance in the subset. それにもかかわらず、30%のサブセットは最小のボラティリティ変動を持ち、サブセットの不均衡が明らかである。 0.62
Table 6 Comparison between RD and Volatility values. 表6 RDとボラティリティの値の比較。 0.78
Variance RD S. Deviation ばらつき RD S. Deviation 0.79
Volatility 1.19 0.53 0.26 0.86 揮発性 1.19 0.53 0.26 0.86 0.52
30% 0.0011 50% 0.0023 70% 0.0032 100% 0.0050 On the other hand, the subset generated by the 50% cut, again shows up as the most consistent. 30% 0.0011 50% 0.0023 70% 0.0032 100% 0.0050 一方、50%カットによって生成されたサブセットは、再び最も一貫性のあるものである。
訳抜け防止モード: 30% 0.0011 50% 0.0023 70% 0.0032 100 % 0.0050 一方、 50%カットによって生成されるサブセットは、再び最も一貫性のある .
0.90
Because, it presents the second smallest variation of DR, behind only the subset なぜなら 部分集合の背後にある dr の最小の変種は 0.50
1.49 0.73 0.51 0.93 1.49 0.73 0.51 0.93 0.45
Variance 0.0000013 0.0000057 0.000010 0.000025 変数 0.0000013 0.0000057 0.000010 0.000025 0.44
S. Deviation S. Deviation 0.88
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 12 of 15 15ページ12ページ。 0.75
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
of 70%. And it also has the second smallest volatility variation, just behind the 30% subset. 70%です ボラティリティの変動は30%に過ぎず、ボラティリティの変動は2番目に小さい。 0.63
This allows us to infer that the 50% subset generated by decodIRT would be a more efficient and adequate choice than the original OpenML-CC18 benchmark, according to the analysis of the item parameters and the Glicko system. これにより、アイテムパラメータとGlickoシステムの分析によると、decodIRTによって生成された50%のサブセットが、オリジナルのOpenML-CC18ベンチマークよりも効率的で適切な選択になると推測できる。 0.72
5.5. Innate ability evaluation In addition to choosing a more efficient benchmark, creating the subsets allows for a deeper assessment of the models’ innate ability. 5.5. インナート能力評価 より効率的なベンチマークの選択に加えて、サブセットの作成により、モデルのインナート能力のより深い評価が可能になる。 0.75
It is observed in the new rankings generated (see Tables 2, 3 and 4) that Random Forest maintained the lead ahead of MLP. 新しいランキング(表2、3、4参照)では、ランダムフォレストがMLPよりもリードを維持していたことが示されている。
訳抜け防止モード: それは生成された新しいランキングで観察される (表2、3、4参照) ランサム・フォレストはMLPより先導した。
0.62
As the benchmarks subsets, the average difficulty of the benchmarks gradually increases (see Table 5). ベンチマークがサブセットになるにつれて、ベンチマークの平均的な困難は徐々に増加する(表5参照)。 0.54
This suggests that RF is probably the most skillful algorithm, as it manages to keep the rating high even in the faceofthemostdifficultdatasets. これは、RFがおそらく最も熟練したアルゴリズムであることを示している。
訳抜け防止モード: これは、RFがおそらく最も熟練したアルゴリズムであることを示している。 最難易度データセットでも 評価を高く保ちます
0.68
Anotherpointthatcorr oborates the previous statement is volatility. 前述を裏付けるもうひとつのポイントはボラティリティである。 0.37
In all benchmark scenarios analyzed (100%, 70%, 50% and 30%), Random Forest is the real classifier with the lowest volatility value, which means that its rating is the more accurate and reliable, so it is less susceptible to possible fluctuation. 分析されたすべてのベンチマークシナリオ(100%、70%、50%、30%)において、ランダムフォレストはボラティリティの低い真の分類者であり、その評価はより正確で信頼性が高いため、変動の可能性が少ない。 0.73
Thedifferentscenariosalsoal lowevaluatinginverse cases, where the classifiers had a drop in performance. differentscenarios alsoevaluating inversecasesでは、分類器のパフォーマンスが低下した。 0.67
The main example is the SVM that dropped from 6th to last position among the real classifiers. 主な例は、実際の分類器の中で6位から最終位に落ちたsvmである。
訳抜け防止モード: 主な例はSVMです 実際の分類器の6位から最後の位に落ちました
0.76
Although surprising, the Glicko2 system already pointed out this possibility, since the SVM had the highest volatility value recorded in all the rankings generated,0.0772. 驚くべきことに、glicko2システムは、svmが生成したすべてのランキングで最も高いボラティリティ値を持っていたため、すでにこの可能性を指摘した。
訳抜け防止モード: 驚くべきことに、Glicko2システムはすでにこの可能性を指摘している。 SVMのボラティリティ値は全ランキングで0.0772だった。
0.72
ThisthenmeansthatSVM wasthemodel with the least reliable rating value. thisthenmeansthatsvm wasthemodel の信頼性の低い評価値。 0.54
Although the results are not yet completely conclusive, it is noted that the search for the correct assessment of the algorithms innate ability is valid and that the combination of the use of IRT with the Glicko-2 system can serve as a correct format for this assessment. 結果はまだ完全には確定していないが、アルゴリズムの本質的な能力の正しい評価の探索は有効であり、IRTとGlicko-2システムの組み合わせは、この評価の正しいフォーマットとして機能できることに注意が必要である。 0.84
5.6. OpenML-CC18 datasets characterization Creatingsubsetsofabe nchmarkisaveryimport anttask, since a smaller benchmark is computationally less costly. 5.6. openml-cc18 datasets characterization creatingsubsetsofabe nchmarkisavery importanttask、なぜなら小さなベンチマークは計算コストが低いからである。 0.55
However, one should not only consider the computational costforthistask, itisimportantthatthe newbenchmarkgenerate d is also able to maintain characteristics similar to the original. しかし、計算コストを考慮すべきではない。itis importantthatthenewb enchmarkgeneratedは元のものと類似した特性を維持できる。 0.59
To test if the set of 50% generated from the OpenMLCC18 benchmark has similar characterization. OpenMLCC18ベンチマークから生成される50%のセットが、同様の特徴を持つかどうかをテストする。 0.60
The following general dataset characteristics were compiled: 以下の一般的なデータセットの特徴をまとめた。 0.61
• Data types: if the dataset is composed only of features of numeric or categorical type or if the dataset is mixed (it has features of both types). • データ型: データセットが数値型またはカテゴリ型の特徴のみで構成されている場合や、データセットが混在している場合(両者の特徴がある)。 0.78
• Classification type: whether the dataset is binary or •分類型:データセットがバイナリであるかどうか 0.76
multiclass. When analyzing Tables 7 and 8, it can be observed that the data types of the datasets are kept proportional in total between the two sets of benchmarks. マルチクラス。 表7と表8を分析すると、データセットのデータ型が2つのベンチマークセット間に比例して保持されるのが観察できる。 0.73
Where, for the new benchmark,thetotalam ountofnumericandmixe dtypedatasets 新しいベンチマークでは、thetotalamountofnume ricandmixedtypedatas ets 0.32
Table 7 OpenML-CC18 characterization. 表7 OpenML-CC18 の特徴。 0.59
Categorical Numeric Mixed Total カテゴリー別数値混合総和 0.71
Binary 6.66% 30% 11.66% 48.33% バイナリ 6.66% 30% 11.66% 48.33% 0.63
Multiclass 6.66% 38.33% 6.66% 51.66% マルチクラス 6.66% 38.33% 6.66% 51.66% 0.58
Table 8 Characterization of the 50% subset. 表8 50%のサブセットの特徴付け。 0.69
Categorical Numeric Mixed Total カテゴリー別数値混合総和 0.71
Binary 6.66% 16.66% 13.33% 36.66% バイナリ 6.66% 16.66% 13.33% 36.66% 0.58
Multiclass 6.66% 46.66% 10% 63.33% マルチクラス 6.66% 46.66% 10% 63.33% 0.64
Total 13.33% 68.33% 18.33% 100% 全13.33% 68.33% 18.33% 100% 0.69
Total 13.33% 63.33% 23.33% 100% 全13.33% 63.33% 23.33% 100% 0.69
varies only 5% when compared to the values of the original benchmark. オリジナルのベンチマークの値と比較すると、5%しか変化しない。 0.68
Themostsignificantchangeisinthetyp eofdatasetclassification, where the original benchmark is more balanced, especially in terms of total values. themostsignificantch angeisinthetypeofdat asetclassification: 元のベンチマークは、特に合計値の点でよりバランスが取れている。 0.29
While the new benchmark generated presents a higher total percentage of multiclass datasets, with the difference between the amount of binaries being 26.66%. 新しいベンチマークでは、マルチクラスのデータセットの総パーセンテージが高く、バイナリの量は26.66%である。 0.65
However, this wide classification difference only appears when evaluating datasets of numeric data type. しかし、この幅広い分類の違いは数値データ型のデータセットを評価する場合にのみ現れる。 0.71
Because, for categorical datasets, the classification proportion is maintained and for mixed datasets the percentage variation is below 4% if compared to the original benchmark. 分類データセットでは、分類比率が維持され、混合データセットでは、元のベンチマークと比較した場合、比率のばらつきが4%以下になる。 0.66
In addition to the general characterization, more specific characteristics of the datasets of each benchmark were also analyzed. 一般的な特徴に加え、各ベンチマークのデータセットのより具体的な特性も分析した。 0.77
For this purpose, 9 metadata were removed from OpenMLforeachdataset : numberofclasses, numberoffeatures, percentage of instances with missing values, percentageofcategori calfeatures,percenta geofnumericalfeature s, percentage of binary features, percentage of majority and minority classes and the dimensionality. この目的のために、openmlforeachデータセットから9つのメタデータが削除された: numberofclasses, numberoffeatures, percentage of instance with missing values, percentageofcategori calfeatures,percenta geofnumericalfeature s, percentage of binary features, percentage of majority and minority class and the dimensionality。 0.70
This data can be accessed in the supplementary material (link to supplementary material). このデータは補足資料(補足資料へのリンク)からアクセスすることができる。 0.68
Dataset metadata analysis of each set was performed by calculating the mean, median and standard deviation. 平均, 中央値, 標準値の偏差を計算し, データセットのメタデータ解析を行った。 0.78
It was observed if these values suffered a lot of change when analyzed against the original benchmark and later on the subset generated by the 50% cut. これらの値が元のベンチマークに対して分析され、50%のカットで生成されたサブセットに対して、大きな変化が見られた。 0.70
Table 9 brings the variation of values between sets in the mean. 表9は、平均でセット間の値のばらつきをもたらします。 0.78
Among the analyzed metadata, it is observed that only the Number of Features and the Percentage of the Majority Class suffer considerable variation. 分析されたメタデータのうち、特徴数と主要クラスの割合のみがかなり異なることが観察された。
訳抜け防止モード: 分析されたメタデータのうち、特徴数のみを観察する。 そして、Majority Classのパーセントはかなりのばらつきがある。
0.75
Despite the high average number of features, a thorough analysis reveals a standard and median deviation of 335.66 and 25 for the original benchmark and 329.72 and 29 for the new benchmark. 高い平均的な特徴にもかかわらず、徹底的な分析により、元のベンチマークでは335.66と25、新しいベンチマークでは329.72と29の標準偏差と中央値偏差が明らかになった。 0.53
This revealsthatonlyafewd atasetsfrombothsetsh aveveryhigh numbers of features and that overall there is not much variation, see values very close to the median. したがって、onlyafewdatasets from bothsets havevery high number of features, and totally there is not much variation, see value very near the median. (英語) 0.66
The main change is in the percentage of appearance of 主な変化は外観の比率である 0.60
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 13 of 15 15頁13頁。 0.74
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
Table 9 Variation between the original and the new benchmark in percentage. 表9 オリジナルのベンチマークと新しいベンチマークの比率の違い。 0.57
Avg. 100% Avg. avgだ 100%avg。 0.62
50% 151.06 Nº of Features 6.83 Nº of Classes Perc. 50% 151.06 No of Features 6.83 No of Classs Perc 0.90
Instances W. Mis. Val. 例:W.Mis。 Val 0.50
5.64 27.24 Perc. 5.64 27.24 Perc 0.68
Symbolic Features 72.75 Perc. シンボリックな特徴 72.75 Perc。 0.62
Numeric Features 13.10 Perc. 数字 13.10 Perc。 0.71
Binary Features Perc. バイナリ機能はperc。 0.59
Majority Class 38.78 16.10 Perc. クラス38.78 16.10 Perc 0.75
Minority Class Dimensionality 0.86 マイノリティクラス次元 0.86 0.68
136.95 5.25 4.97 25.77 74.22 12.23 46.76 19.27 1.37 136.95 5.25 4.97 25.77 74.22 12.23 46.76 19.27 1.37 0.42
the majority class, which undergoes a change of about 20% from the original average value to more in the new benchmark. 多数派クラスは、オリジナルの平均値から新しいベンチマークに約20%変更されている。 0.63
This shows that the 50% subset has more datasets with unbalanced classes. これは50%のサブセットが不均衡なクラスを持つより多くのデータセットを持っていることを示している。 0.50
Furthermore, a direct analysis of the metadata of each dataset revealed that the highest percentages of the majority class belong to the datasets classified as the most discriminating, i.e. さらに、各データセットのメタデータの直接分析により、多数派クラスの最高パーセンテージは、最も識別されたデータセットに属することが明らかとなった。 0.78
they are the easiest. It was initially thought that highly unbalanced datasets would be considered the most difficult, but the situation is the opposite. 彼らは最も簡単です 当初、高度にバランスの取れないデータセットが最も難しいと考えられていたが、状況は逆である。 0.78
However, this situation is not far from general knowledge in ML. しかし、この状況はMLの一般的な知識には程遠い。 0.73
One possible explanation is that the IRTdefinedthatmodelsunablet ogeneralizeallclasse sinan unbalanced situation as bad, while models that do are considered good. 1つの可能な説明は、IRTdefinedthatmodels unableto generalizeallclasses inan バランスの取れない状況は悪いが、良いモデルと見なされていることである。 0.59
This would explain the high discrimination values and remain consistent with the natural knowledge of the behavior of models in ML. これは高い差別値を説明し、MLにおけるモデルの振る舞いの自然な知識と一致している。 0.67
6. Final considerations This work explored the IRT for benchmark evaluation andrankingalgorithms . 6. 最終的な考察 この研究は、ベンチマーク評価と格付けalgorithmsのためのIRTを調査した。 0.65
MLbenchmarksarecommo nlyused to explore how far ML algorithms can go when dealing with datasets in order to keep the model as strong as possible. MLbenchmarksは、モデルを可能な限り強力に保つために、データセットを扱う際に、MLアルゴリズムがどこまで機能するかを調査するために使用される。 0.60
Although OpenML-CC18 is designed to be a gold standard, it should be used with caution. OpenML-CC18は金の標準として設計されているが、注意が必要である。 0.67
Of the 60 datasets evaluated, only 12% have instances that are considered difficult, while half of the benchmark presents 80% of the instances as beingverydiscriminat ory. 評価された60のデータセットのうち、難しいと見なされるインスタンスは12%に過ぎず、ベンチマークの半分はインスタンスの80%が極めて差別的であることを示している。 0.57
Thisconditioncanbeag reatsource for analyzing comparisons, but it is not useful for testing the ability of classifiers. この条件は比較分析に役立ちますが、分類器の能力をテストするには役に立ちません。 0.62
The benchmark assessment methodologyisprovide dandcanbereplicatedb ythedecodIRTtoolin an automated way. ベンチマーク評価手法は自動的な方法である。 0.52
Although classifier skills are highlighted by IRT, there was also a problem with innate skill, whether it is possible to define the boundaries between the ML algorithm (by design) and training (optimization). 分類器のスキルはIRTによって強調されているが、(設計によって)MLアルゴリズムとトレーニング(最適化)の境界を定義することができるかどうかという固有のスキルにも問題があった。 0.73
The results of the IRT were exploited by rating systems as used to assess the strength of chess players to establish the ML winner and thereby provide an initial glimpse of a score for the innate ability of the algorithms. IRTの結果は、機械学習の勝者を確立するためのチェス選手の強さを評価するために、評価システムによって利用され、アルゴリズムの本質的な能力のスコアを最初に垣間見るために使用された。 0.70
In addition, decodIRT was used to explore whether there is a more efficient benchmark subset than the original and whether it could be obtained from the IRT estimators. さらに、decodIRTは、オリジナルよりも効率的なベンチマークサブセットがあるかどうか、IRT推定器から得られるかどうかを調査するために使われた。 0.65
After exploring different subsets, the subset consisting of 50% of the total datasets selected on the percentages of discrimination and difficulty was chosen. その後 異なるサブセットを探索すると、識別と難易度の割合で選択されたデータセット全体の50%からなるサブセットが選択された。 0.64
Because, not only does it allow an evaluation to be carried out with the characterization of the datasets very close to the original, but it also proved to be more suitable for evaluating and separating the strength of the models. なぜなら、もともとと非常に近いデータセットのキャラクタリゼーションによって評価を行うことができるだけでなく、モデルの強度を評価して分離するのにもより適していることが証明されたからである。 0.83
Furthermore, the creation of the benchmark subsets allowed us to explore a little more the innate ability of the models. さらに、ベンチマークサブセットの作成により、モデルの本質的な能力について少し調べることができました。 0.56
The final result pointed out that Random Forest is the classifier that has the greatest innate ability, making its choice preferable in relation to the evaluated models. 最終結果は、ランダムフォレストが最大の自然能力を持つ分類器であり、評価モデルに関してその選択が好ましいことを指摘した。 0.71
Therefore, it was shown that the IRT can also be used for filtering and creating more efficient sets of benchmarks and, based on that, choosing more accurately which is the best classifier. したがって、irtはより効率的なベンチマークセットのフィルタリングや作成にも利用でき、それに基づいて最適な分類器を選ぶことができることを示した。 0.69
So, in the dispute between data vs classifiers, the final result was a technical draw to decide who is the most important. したがって、データと分類器の間の論争において、最終的な結果は誰が最も重要なのかを決めるための技術的な引き分けであった。 0.60
Machine learning is usually a constant process of improving data and models to obtain better results. 機械学習は通常、より良い結果を得るためにデータとモデルを改善する一定のプロセスである。 0.77
This work can be seen in the same way, as it presents key points that need to be better explored and analyzed. この作業は、より深く調査し分析する必要があるキーポイントを提示するため、同じように見ることができる。 0.73
Among them is the concept of difficult. そのなかには困難という概念がある。 0.71
It is known that the difficulty is subjective and strongly depends on the individual. 難易度は主観的であり、個人に強く依存することが知られている。 0.67
The assertion that a given dataset is more difficult than another must be made with caution as well, as it is directly linked to the models that were used to estimate the difficulty. 与えられたデータセットが他のデータセットよりも難しいという主張は、その困難を見積もるために使用されたモデルに直接リンクされているため、注意を要する。 0.75
Which leads to another key point, the number of classifiers used in the evaluation process is still small and does not encompass all algorithm families. 評価プロセスで使用される分類器の数は依然として小さく、全てのアルゴリズムファミリを包含していない。 0.67
Future work would be to expandthenumberofdifferentmodelsevaluated . 今後は、差分モデルを拡張していく予定だ。 0.40
Algorithm evaluation is also a key point that can be better explored by comparing the results obtained by the Glicko-2 system with the most used evaluation metrics. アルゴリズム評価は,Glicko-2システムで得られた結果と最もよく使用される評価指標を比較することで,よりよく探索できる重要なポイントでもある。 0.80
Acknowledgements We thank the Federal University of Pará (UFPA), the Graduate Program in Computer Science (PPGCC) and the Vale Technological Institute (ITV) for supporting development and research. 我々は、パーラ連邦大学(UFPA)、コンピュータ科学研究プログラム(PPGCC)、そして開発と研究を支援するためにヴァレ工科大学(ITV)に感謝します。 0.65
Thisworkhadfinancialsupportfromth eBrazilianagency CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico). CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) の略。 0.61
This work was supported by Vale (Genomics Biodiversity project, Grant No. この研究はVale (Genomics Biodiversity Project, Grant No) が支援した。 0.82
RBRS000603.85) to Ronnie Alves. rbrs000603.85 - ロニー・アルヴェス。 0.50
The funders had no role in the study design, data collection and interpretation, or the decision to submit the work for publication. 資金提供者は研究設計、データ収集と解釈、あるいは論文を出版するために提出する決定に何の役割も果たさなかった。 0.73
CRediT authorship contribution statement Lucas F. F. Cardoso: Conceptualization of this study, Methodology, Software development, Writing - main text. CRediTオーサシップコントリビューションステートメント Lucas F. F. Cardoso: この研究の概念化、方法論、ソフトウェア開発、執筆 - メインテキスト。 0.78
Vitor C. A. Santos: Translation, Result analysis. Vitor C. A. Santos: 翻訳、結果分析。 0.93
Regiane S. Kawasaki Francês: Text curation, Writing - Original draft preparation. Regiane S. Kawasaki Francês: テキストキュレーション、執筆 - オリジナルドラフトの準備。 0.78
Ricardo B. C. Prudêncio: Writing - reference support. Ricardo B. C. Prudêncio: 書き込み – リファレンスサポート。 0.90
Ronnie C. O. Alves: Orientation, General work review, Writing - Final review. Ronnie C. O. Alves: オリエンテーション、一般的な作業レビュー、執筆 - 最終レビュー。 0.85
Cardoso, L. et al : Preprint submitted to Elsevier Cardoso, L. et al : Elsevierに提出されたプレプリント 0.76
Page 14 of 15 15頁14頁。 0.74
英語(論文から抽出)日本語訳スコア
Data vs classifiers, who wins? データ対分類器 誰が勝つ? 0.72
ECML 2015. 2015年ECML。 0.82
Porto, Portugal, 11 September 2015. ポルトガル、ポルト、2015年9月11日。 0.59
Rizopoulos, D., 2006. ltm: An r package for latent variable modeling and item response theory analyses. Rizopoulos, D., 2006. ltm: 潜在変数モデリングとアイテム応答理論解析のためのrパッケージ。 0.82
Journal of statistical software 17, 1–25. journal of statistical software 17, 1–25 を参照。 0.74
Samothrakis, S., Perez, D., Lucas, S.M., Rohlfshagen, P., 2014. Samothrakis, S., Perez, D., Lucas, S.M., Rohlfshagen, P., 2014 0.87
Predicting dominance rankings for score-based games. スコアベースゲームにおける支配的ランキングの予測 0.60
IEEE Transactions on Computational Intelligence and AI in Games 8, 1–12. IEEE Transactions on Computational Intelligence and AI in Games 8, 1-12。 0.90
Smith, M.R., Martinez, T., 2014. Smith, M.R., Martinez, T., 2014 0.90
Reducing the effects of detrimental instances, in: 2014 13th International Conference on Machine Learning and Applications, IEEE. 2014 13th International Conference on Machine Learning and Applications, IEEE。 0.40
pp. 183–188. pp. 183–188. 0.78
Song, H., Flach, P., 2021. Song, H., Flach, P., 2021年。 0.89
Efficient and robust model benchmarks with item responsetheoryandada ptivetesting. item responsetheoryとadaptivetestingを使った効率的でロバストなモデルベンチマーク。 0.54
InternationalJournal ofInteractive Multimedia & Artificial Intelligence 6. InternationalJournal of Interactive Multimedia & Artificial Intelligence 6(英語) 0.78
Vanschoren, J., Van Rijn, J.N., Bischl, B., Torgo, L., 2014. Vanschoren, J., Van Rijn, J.N., Bischl, B., Torgo, L., 2014 0.88
Openml: networked science in machine learning. Openml: 機械学習におけるネットワーク科学。 0.87
ACM SIGKDD Explorations Newsletter 15, 49–60. ACM SIGKDD Explorations Newsletter 15 49-60。 0.85
Ve ek, N., Mernik, M., repinšek, M., 2014. ve ek, n., mernik, m., repinšek, m., 2014年。 0.76
A chess rating system for evolutionary algorithms: A new method for the comparison and ranking of evolutionary algorithms. 進化的アルゴリズムのためのチェスレーティングシステム:進化的アルゴリズムの比較とランキングの新しい方法。 0.75
Information Sciences 277, 656–679. 情報科学 277, 656–679。 0.82
References Adedoyin, O., Mokobi, T., et al , 2013. Adedoyin, O., Mokobi, T., et al , 2013 を参照のこと。 0.87
Using irt psychometric analysis in examining the quality of junior certificate mathematics multiple choice examination test items. ジュニア証明数学の質評価における irt 心理測定分析を用いた複数選択試験項目の検討 0.82
International Journal of Asian Social Science 3, 992–1011. International Journal of Asian Social Science 3, 992–1011 0.88
de Andrade, D.F., Tavares, H.R., da Cunha Valle, R., 2000. de Andrade, D.F., Tavares, H.R., da Cunha Valle, R., 2000 0.97
Teoria da resposta ao item: conceitos e aplicações. 原題:teoria da resposta ao item: conceitos e aplicaçíes。 0.82
ABE, Sao Paulo . サオ・パウロ(Sao Paulo)。 0.48
Birnbaum, A., Lord, F., Novick, M., 1968. birnbaum, a., lord, f., novick, m., 1968年。 0.81
Statisticaltheorieso fmentaltest scores. 統計理論によるテストスコア。 0.46
Some latent trait models and their use in inferring an examinee’s ability. いくつかの潜在形質モデルとその検査者の能力の推測における使用。 0.68
Addison-Wesley, Reading, MA . Addison-Wesley, Reading, MA 0.89
Bischl, B., Casalicchio, G., Feurer, M., Hutter, F., Lang, M., Mantovani, R.G., van Rijn, J.N., Vanschoren, J., 2017. Bischl, B., Casalicchio, G., Feurer, M., Hutter, F., Lang, M., Mantovani, R.G., van Rijn, J.N., Vanschoren, J., 2017 0.91
Openml benchmarking suites and the openml100. openmlベンチマークスイートとopenml100。 0.71
stat 1050, 11. 背番号1050、背番号11。 0.44
Cardoso, L.F., Santos, V.C., Francês, R.S.K., Prudêncio, R.B., Alves, R.C., 2020. Cardoso, L.F., Santos, V.C., Francês, R.S.K., Prudêncio, R.B., Alves, R.C., 2020 0.79
Decodingmachinelearn ingbenchmarks,in: BrazilianConference on Intelligent Systems, Springer. Decodingmachinelearn ingbenchmarks, in: BrazilConference on Intelligent Systems, Springer 0.71
pp. 412–425. pp. 412–425. 0.78
Domingos, P., 2012. Domingos, P., 2012年。 0.92
A few useful things to know about machine learning. 機械学習について知っておくべき便利なこと。 0.70
Communications of the ACM 55, 78–87. ACM 55,78-87の通信。 0.76
Elo, A.E., 1978. 1978年、a.e.。 0.55
The rating of chessplayers, past and present. チェスプレーヤーの過去と現在のレーティング。 0.46
Arco Pub. Facebook, . Arco Pub Facebook、。 0.67
Rethinking ai benchmarking. aiベンチマークの再考。 0.44
URL: https://dynabench.or g/ about. URL: https://dynabench.or g/ about 0.77
Ferri, C., Hernández-Orallo, J., Modroiu, R., 2009. Ferri, C., Hernández-Orallo, J., Modroiu, R., 2009 0.88
An experimental comparison of performance measures for classification. 分類のための性能指標の実験的比較 0.80
Pattern Recognition Letters 30, 27–38. パターン認識文字30,27-38。 0.74
Gautier, L., 2008. rpy2: A simple and efficient access to r from python. gautier, l., 2008 rpy2: pythonからのrへのシンプルで効率的なアクセス。 0.78
URL http://rpy. URL http://rpy.com 0.71
sourceforge. sourceforge です。 0.80
net/rpy2. html 3, 1. net/rpy2。 html 3 1。 0.60
Glickman, M.E., 2012. Glickman, M.E., 2012年。 0.79
Example of the glicko-2 system. glicko-2 システムの例。 0.83
Boston University , 1–6. ボストン大学1-6年生。 0.55
Kotsiantis,S.B.,Zaha rakis,I.,Pintelas,P. ,2007. Kotsiantis,S.B.,Zaha rakis,I.,Pintelas,P. ,2007。 0.85
Supervisedmachinelea rning: A review of classification techniques. Supervisedmachinelea rning: 分類技法のレビュー。 0.67
Emerging artificial intelligence applications in computer engineering 160, 3–24. 人工知能を応用したコンピュータ工学 160, 3–24。 0.70
Kubat, M., 2017. 2017年、m.c.。 0.54
An introduction to machine learning. Springer. 機械学習入門。 Springer 0.48
Lord, F.M., Wingersky, M.S., 1984. F.M.、ウィンガースキー、M.S.、1984年。 0.60
Comparison of irt true-score and equipercentileobserv ed-score"equatings". irt true-score と equipercentileobserv ed-score "equatings" の比較 0.84
AppliedPsychological Measurement 8, 453–461. 応用心理学測定8,453-461。 0.47
Martínez-Plumed, F., Prudêncio, R.B., Martínez-Usó, A., HernándezOrallo, J., 2016. Martínez-Plumed, F., Prudêncio, R.B., Martínez-Usó, A., Hernández Orallo, J., 2016 0.84
Making sense of item response theory in machine learning, in: Proceedings of the Twenty-second European Conference on Artificial Intelligence, pp. 機械学習における項目応答理論の理解 : in: proceedings of the twenty-second european conference on artificial intelligence, pp. 0.84
1140–1148. 1140–1148. 0.71
Martínez-Plumed, F., Prudêncio, R.B., Martínez-Usó, A., HernándezOrallo, J., 2019. Martínez-Plumed, F., Prudêncio, R.B., Martínez-Usó, A., Hernández Orallo, J., 2019 0.85
Itemresponsetheoryin ai: Analysingmachinelear ning classifiers at the instance level. Itemresponsetheoryin ai: インスタンスレベルでの機械学習の分類の解析。 0.67
Artificial Intelligence 271, 18–42. 人工知能271, 18-42。 0.64
Meneghetti, D.D.R., Junior, P.T.A., 2017. メネゲッティ、D.D.R.、ジュニア、P.T.A.、2017年。 0.41
Application and simulation of computerized adaptive tests through the package catsim. パッケージ catsim によるコンピュータ適応テストの適用とシミュレーション 0.70
arXiv preprint arXiv:1707.03012 . arXiv preprint arXiv:1707.03012 0.69
Monard, M.C., Baranauskas, J.A., 2003. Monard, M.C., Baranauskas, J.A., 2003 0.90
Conceitos sobre aprendizado de máquina. コンセト・ソブレ・アプレディザード・デ・マキナ (Conceitos sobre aprendizado de máquina)。 0.36
Sistemas inteligentes-Fundame ntos e aplicações 1, 32. Sistemas inteligentes-Fundame ntos e aplicaçees 1, 32。 0.87
Nemenyi, P., 1962. ネメニ、1962年。 0.48
Distribution-free multiple comparisons, in: Biometrics, International Biometric Soc 1441 I ST, NW, SUITE 700, WASHINGTON, DC 20005-2210. p. 263. 国際バイオメトリックス 1441 I ST, NW, SUITE 700, WASHINGTON, DC 20005-2210. p. 263。
訳抜け防止モード: 分布-自由多重比較 : バイオメトリックス, 国際バイオメトリックソック1441 I ST NW, SUITE 700, WASHINGTON, DC 20005 - 2210 . p. 263。
0.78
Nie, Y., Williams, A., Dinan, E., Bansal, M., Weston, J., Kiela, D., 2019. Nie, Y., Williams, A., Dinan, E., Bansal, M., Weston, J., Kiela, D., 2019 0.81
Adversarial nli: A new benchmark for natural language understanding. Adversarial nli: 自然言語理解のための新しいベンチマーク。 0.82
arXiv preprint arXiv:1910.14599 . arXiv preprint arXiv:1910.14599 0.69
frictionless, automated machine learning environment. 摩擦のない自動機械学習環境です 0.81
#studies-under-const ruction. #studies-under-const ruction。 0.54
OpenML,b. Anopen, collaborative, frictionless, automatedmachinelear ning environment. OpenML,b。 オープンで協力的で、摩擦のない、自動機械学習環境。 0.67
URL: https://docs.openml. org/. URL: https://docs.openml. org/ 0.62
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al , 2011. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al , 2011 0.82
Scikit-learn: Machinelearninginpyt hon. Scikit-learn: Machinelearninginpyt hon。 0.81
theJournalofmachineL earning research 12, 2825–2830. JournalofmachineLear ning Research 12, 2825–2830 0.84
Pereira, D.G., Afonso, A., Medeiros, F.M., 2015. Pereira, D.G., Afonso, A., Medeiros, F.M., 2015 0.96
Overview of friedman’s test and post-hoc analysis. friedman氏のテストとポストホック分析の概要。 0.74
Communicationsin Statistics-Simulatio n and Computation 44, 2636–2653. Communicationsin Statistics-Simulatio n and Computation 44,2636–2653 0.83
Prudêncio, R.B., Hernández-Orallo, J., Martınez-Usó, A., 2015. Prudêncio, R.B., Hernández-Orallo, J., Martınez-Usó, A., 2015 0.85
Analysis of instance hardness in machine learning using item response theory, in: Second International Workshop on Learning over Multiple Contexts in 項目応答理論を用いた機械学習におけるインスタンスハードネスの分析:―多文脈学習に関する第2回国際ワークショップ― 0.83
https://docs.openml. org/ https://docs.openml. org/ 0.43
OpenML, a. An open, collaborative, OpenML、A。 オープンで協力的で 0.70
URL: Cardoso, L. et al : Preprint submitted to Elsevier URL: Cardoso, L. et al : Elsevierに提出されたプレプリント 0.80
Page 15 of 15 15ページ。 0.53
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。