論文の概要、ライセンス

# (参考訳) tabtransformer: コンテキスト埋め込みを用いた表データモデリング [全文訳有]

TabTransformer: Tabular Data Modeling Using Contextual Embeddings ( http://arxiv.org/abs/2012.06678v1 )

ライセンス: CC0 1.0
Xin Huang, Ashish Khetan, Milan Cvitkovic, Zohar Karnin(参考訳) 本研究では,教師付きおよび半教師付き学習のための新しい深層表データモデリングアーキテクチャであるTabTransformerを提案する。 Tab Transformerは自己アテンションベースのTransformer上に構築されている。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 15の公開データセットに関する広範な実験により、TabTransformerは、AUCの平均値に対して少なくとも1.0%以上の最先端の深層学習手法を上回り、ツリーベースのアンサンブルモデルの性能に匹敵することを示す。 さらに,tabtransformerから学習したコンテキスト埋め込みは,欠落データとノイズデータの両方に対して極めて堅牢であり,解釈性が向上することを示す。 最後に, 半教師付き環境において, データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し, 平均2.1%のAUCが最先端の手法に到達した。

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-the-art deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.
公開日: Fri, 11 Dec 2020 23:31:23 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
TabTransformer: Tabular Data Modeling tabtransformer: 表型データモデリング 0.78
Using Contextual Embeddings コンテキスト埋め込みの利用 0.77
Xin Huang,1 Ashish Khetan, 1 Milan Cvitkovic 2 Zohar Karnin 1 xin huang,1 ashish khetan, 1 milan cvitkovic 2 zohar karnin 1 0.82
xinxh@amazon.com, khetan@amazon.com, mwcvitkovic@gmail.co m, zkarnin@amazon.com xinxh@amazon.com, khetan@amazon.com, mwcvitkovic@gmail.co m, zkarnin@amazon.com 0.78
1 Amazon AWS 1 Amazon AWS 0.85
2 PostEra 0 2 0 2 2ポストエラ 0 2 0 2 0.75
c e D 1 1 ] c e D 1 ] 0.75
G L . s c [ 1 v 8 7 6 6 0 G L。 sc [ 1 v 8 7 6 6 0 0.70
. 2 1 0 2 : v i X r a . 2 1 0 2 : v i X r a 0.85
Abstract We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. 概要 本研究では,教師付きおよび半教師付き学習のための新しい深層表データモデリングアーキテクチャであるTabTransformerを提案する。 0.52
The TabTransformer is built upon self-attention based Transformers. Tab Transformerは自己アテンションベースのTransformer上に構築されている。 0.58
The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。
訳抜け防止モード: Transformer 層は分類的特徴の埋め込みを堅牢な文脈埋め込みに変換する 予測精度を高めるためです
0.86
Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-theart deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. 15の公開データセットに対する広範な実験により、TabTransformerは、平均AUCに対して少なくとも1.0%以上の最先端の深層学習手法を上回り、ツリーベースのアンサンブルモデルの性能に匹敵することを示す。 0.72
Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. さらに,tabtransformerから学習したコンテキスト埋め込みは,欠落データとノイズデータの両方に対して極めて堅牢であり,解釈性が向上することを示す。 0.73
Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods. 最後に, 半教師付き環境において, データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し, 平均2.1%のAUCが最先端の手法に到達した。 0.57
1 Introduction Tabular data is the most common data type in many realworld applications such as recommender systems (Cheng et al 2016), online advertising (Song et al 2019), and portfolio optimization (Ban, El Karoui, and Lim 2018). 1 はじめに 表型データは、レコメンデーションシステム(cheng et al 2016)、オンライン広告(song et al 2019)、ポートフォリオ最適化(ban、el karoui、lim 2018)など、多くの現実のアプリケーションで最も一般的なデータ型である。 0.70
Many machine learning competitions such as Kaggle and KDD Cup are primarily designed to solve problems in tabular domain. KaggleやKDD Cupといった多くの機械学習コンペティションは、主に表ドメインの問題を解決するために設計されている。 0.65
(GBDT) The state-of-the-art for modeling tabular data is treebased ensemble methods such as the gradient boosted decision trees (Chen and Guestrin 2016; Prokhorenkova et al 2018). (GBDT) 表データモデリングの最先端は、勾配ブースト決定木(chen and guestrin 2016; prokhorenkova et al 2018)のような木ベースのアンサンブル手法である。 0.75
This is in contrast to modeling image and text data where all the existing competitive models are based on deep learning (Sandler et al 2018; Devlin et al 2019). これは、すべての既存の競合モデルがディープラーニング(Sandler et al 2018; Devlin et al 2019)に基づいている画像とテキストデータのモデリングとは対照的である。 0.82
The tree-based ensemble models can achieve competitive prediction accuracy, are fast to train and easy to interpret. 木に基づくアンサンブルモデルは、競争予測精度を達成でき、訓練が速く、解釈が容易である。 0.70
These benefits make them highly favourable among machine learning practitioners. これらの利点は、機械学習の実践者の間で非常に好ましい。 0.57
However, the tree-based models have several limitations in comparison to deep learning models. しかし、木に基づくモデルはディープラーニングモデルと比較していくつかの制限がある。 0.59
(a) They are not suitable for continual training from streaming data, and do not allow efficient end-to-end learning of image/text encoders in presence of multi-modality along with tabular data. (a)ストリーミングデータからの連続的なトレーニングには適せず、表型データとともにマルチモーダル性が存在する場合、画像/テキストエンコーダのエンドツーエンド学習を効率よく行うことができない。 0.69
(b) In their basic form they are not suitable for state-of-the-art (b)基本形態では最先端には適さない 0.66
Preprint. semi-supervised learning methods. プレプリント。 半教師付き学習法。 0.59
This is due to the fact that the basic decision tree learner does not produce reliable probability estimation to its predictions (Tanha, Someren, and Afsarmanesh 2017). これは、基本的な決定木学習者がその予測(tanha, someren, afsarmanesh 2017)に対して信頼できる確率推定をしていないためである。 0.79
(c) The state-of-the-art deep learning methods (Devlin et al 2019) to handle missing and noisy data features do not apply to them. c) 不足やノイズの多いデータを扱うための最先端のディープラーニング手法(devlin et al 2019)は、それらには適用されない。
訳抜け防止モード: (c)the state - of -the - art deep learning methods (devlin et al 2019) ぼんやりと騒がしいデータを扱う 当てはまらない。
0.69
Also, robustness of tree-based models has not been studied much in literature. また、木に基づくモデルの堅牢性はあまり研究されていない。 0.63
A classical and popular model that is trained using gradient descent and hence allows end-to-end learning of image/text encoders is multi-layer perceptron (MLP). 勾配降下法を用いて学習し、画像/テキストエンコーダのエンドツーエンド学習を可能にする古典的かつ一般的なモデルは、多層パーセプトロン(MLP)である。
訳抜け防止モード: 古典的でポピュラーなモデル 勾配勾配から したがって、画像/テキストエンコーダのエンドツーエンド学習はマルチ層パーセプトロン(MLP)である。
0.73
The MLPs usually learn parametric embeddings to encode categorical data features. MLPは通常、分類データの特徴を符号化するためにパラメトリック埋め込みを学ぶ。 0.61
But due to their shallow architecture and context-free embeddings, they have the following limitations: (a) neither the model nor the learned embeddings are interpretable; (b) it is not robust against missing and noisy data (Section 3.2); (c) for semi-supervised learning, they do not achieve competitive performance (Section 3.4). しかし、その浅いアーキテクチャと文脈のない埋め込みのために、以下の制限がある: (a) モデルも学習された埋め込みも解釈できない; (b) 欠落データやノイズデータに対して堅牢ではない; (3.2) 半教師付き学習では、競争性能が得られない(3.4)。 0.85
Most importantly, MLPs do not match the performance of tree-based models such as GBDT on most of the datasets (Arik and Pfister 2019). 最も重要なことは、MLPがほとんどのデータセット(ArikとPfister 2019)でGBDTのようなツリーベースのモデルのパフォーマンスにマッチしないことだ。 0.64
To bridge this performance gap between MLP and GBDT, researchers have proposed various deep learning models (Song et al 2019; Cheng et al 2016; Arik and Pfister 2019; Guo et al 2018). MLPとGBDTのパフォーマンスギャップを埋めるため、研究者はさまざまなディープラーニングモデルを提案した(Song et al 2019、Cheng et al 2016、Arik and Pfister 2019、Guo et al 2018)。 0.77
Although these deep learning models achieve comparable prediction accuracy, they do not address all the limitations of GBDT and MLP. これらの深層学習モデルは予測精度に匹敵するものの,GBDT と MLP の限界に対処するものではない。 0.75
Furthermore, their comparisons are done in a limited setting of a handful of datasets. さらに、それらの比較は少数のデータセットの限られた設定で行われます。 0.71
In particular, in Section 3.3 we show that when compared to standard GBDT on a large collection of datasets, GBDT perform significantly better than these recent models. 特に3.3節では、データセットの集合における標準GBDTと比較して、GBDTは最近のモデルよりも大幅にパフォーマンスが向上している。 0.68
In this paper, we propose TabTransformer to address the limitations of MLPs and existing deep learning models, while bridging the performance gap between MLP and GBDT. 本稿では,MLPとGBDTの性能ギャップを埋めつつ,MLPと既存のディープラーニングモデルの限界に対処するTabTransformerを提案する。 0.74
We establish performance gain of TabTransformer through extensive experiments on fifteen publicly available datasets. 我々は15の公開データセットに対する広範な実験を通じてTabTransformerの性能向上を図る。 0.65
The TabTransformer is built upon Transformers (Vaswani et al 2017) to learn efficient contextual embeddings of categorical features. Tab Transformer は Transformer (Vaswani et al 2017) 上に構築されており、カテゴリ機能の効率的なコンテキスト埋め込みを学習する。 0.68
Different from tabular domain, the application of embeddings has been studied extensively in NLP. 表領域とは異なり、埋め込みの応用はNLPで広く研究されている。 0.66
The use of embeddings to encode words in a dense low dimensional space is prevalent in natural language processing. 密集した低次元空間に単語をエンコードするための埋め込みの使用は、自然言語処理において一般的である。
訳抜け防止モード: 埋め込みの活用 単語を高密度の低次元空間に符号化する 自然言語処理に広く使われています
0.76
Beginning from Word2Vec (Rong 2014) with the context-free word embeddings to BERT (Devlin et al 2019) which pro- Word2Vec (Rong 2014)から始まり、コンテキストフリーの単語埋め込みをBERT (Devlin et al 2019)に導入した。 0.71
英語(論文から抽出)日本語訳スコア
Motivated by the successful applications of Transformers in NLP, we adapt them in tabular domain. NLPにおけるトランスフォーマーの応用の成功に感銘を受けて、我々はそれらを表領域に適応させる。 0.51
In particular, TabTransformer applies a sequence of multi-head attention-based Transformer layers on parametric embeddings to transform them into contextual embeddings, bridging the performance gap between baseline MLP and GBDT models. 特に、tabtransformerはパラメトリック埋め込みにマルチヘッドアテンションベースのトランスフォーマー層を連続して適用し、それらをコンテキスト埋め込みに変換し、ベースラインmlpとgbdtモデルのパフォーマンスギャップを橋渡しする。 0.65
We investigate the effectiveness and interpretability of the resulting contextual embeddings generated by the Transformers. トランスが生成するコンテキスト埋め込みの有効性と解釈可能性について検討する。 0.51
We find that highly correlated features (including feature pairs in the same column and cross column) result in embedding vectors that are close together in Euclidean distance, whereas no such pattern exists in contextfree embeddings learned in a baseline MLP model. ユークリッド距離に近接する埋め込みベクトルは,高相関な特徴(同じ列とクロス列の特徴対を含む)によって生じるが,ベースラインMLPモデルで学習した文脈自由埋め込みにはそのようなパターンは存在しない。 0.81
We also study the robustness of the TabTransformer against random missing and noisy data. また,無作為な欠落データやノイズデータに対するタブトランスフォーマのロバスト性についても検討した。 0.50
The contextual embeddings make them highly robust in comparison to MLPs. 文脈埋め込みは、MLPと比較して非常に堅牢である。 0.68
Furthermore, many existing deep learning models for tabular data are designed for supervised learning scenario but few are for semi-supervised leanring (SSL). さらに、表データのための既存のディープラーニングモデルの多くは教師付き学習シナリオ用に設計されているが、半教師付きリーンリング(ssl)のためのものはほとんどない。 0.50
Unfortunately, the state-of-art SSL models developed in computer vision (Voulodimos et al 2018; Kendall and Gal 2017) and NLP (Vaswani et al 2017; Devlin et al 2019) cannot be easily extended to tabular domain. 残念ながら、最先端のSSLモデルはコンピュータビジョン(Voulodimos et al 2018; Kendall and Gal 2017)とNLP(Vaswani et al 2017; Devlin et al 2019)で開発されており、表ドメインに簡単に拡張することはできない。 0.83
Motivated by such challenges, we exploit pre-training methodologies from the language models and propose a semi-supervised learning approach for pretraining Transformers of our TabTransformer model using unlabeled data. このような課題に動機づけられ,言語モデルから事前学習手法を活用し,ラベルなしデータを用いたタブトランスフォーマモデルのトランスフォーマを事前学習するための半教師付き学習手法を提案する。 0.65
vides the contextual word-token embeddings, embeddings have been widely studied and applied in practice in NLP. 文脈的単語トーケン埋め込み、埋め込みは広く研究され、実際にNLPで応用されている。 0.60
In comparison to context-free embeddings, the contextual embedding based models (Mikolov et al 2011; Huang, Xu, and Yu 2015; Devlin et al 2019) have achieved tremendous success. 文脈自由な埋め込みと比較すると、コンテキスト埋め込みベースのモデル(Mikolov et al 2011、Huang、Xu、Yu 2015、Devlin et al 2019)は大きな成功を収めている。
訳抜け防止モード: 文脈-自由埋め込みと比較して、文脈埋め込みベースのモデル(Mikolov et al 2011 ; Huang Xu,Yu 2015 ; Devlin et al 2019 )は大きな成功を収めた。
0.75
In particular, self-attention based Transformers (Vaswani et al 2017) have become a standard component of NLP models to achieve state-of-the-art performance. 特に、自己注意に基づくトランスフォーマー(Vaswani et al 2017)は、最先端のパフォーマンスを達成するためのNLPモデルの標準コンポーネントとなっている。 0.62
The effectiveness and interpretability of contextual embeddings generated by Transformers have been also well studied (Coenen et al 2019; Brunner et al 2019). トランスフォーマーによって生成されるコンテキスト埋め込みの有効性と解釈性もよく研究されている(coenen et al 2019; brunner et al 2019)。 0.66
One of the key benefits of our proposed method for semi-supervised learning is the two independent training phases: a costly pre-training phase on unlabeled data and a lightweight fine-tuning phase on labeled data. 半教師付き学習における提案手法の重要な利点の1つは、ラベルなしデータに対するコストのかかる事前学習フェーズとラベル付きデータに対する軽量な微調整フェーズの2つの独立したトレーニングフェーズである。
訳抜け防止モード: 半教師あり学習における提案手法の重要な利点の1つは2つの独立した訓練段階である。 そして、ラベル付きデータに対する軽量なファイン-チューニングフェーズ。
0.73
This differs from many state-of-the-art semi-supervised methods (Chapelle, Scholkopf, and Zien 2009; Oliver et al 2018; Stretcu et al 2019) that require a single training job including both the labeled and unlabeled data. これは、ラベル付きデータとラベルなしデータの両方を含む単一のトレーニングジョブを必要とする多くの最先端の半教師方式(Chapelle、Scholkopf、Zien 2009、Oliver et al 2018、Stretcu et al 2019)とは異なる。 0.65
The separated training procedure benefits the scenario where the model needs to be pretrained once but fine-tuned multiple times for multiple target variables. 分離されたトレーニング手順は、複数のターゲット変数に対して、モデルが1度事前訓練される必要があるシナリオに有効である。 0.67
This scenario is in fact quite common in the industrial setting as companies tend to have one large dataset (e g describing customers/products) and are interested in applying multiple analyses on this data. このシナリオは、企業が1つの大きなデータセット(顧客や製品を記述するなど)を持つ傾向があり、このデータに複数の分析を適用することに関心があるため、産業環境では極めて一般的です。 0.72
To summarize, we provide the following contributions: 1. 要約すると、以下の貢献をしている。 0.53
We propose TabTransformer, an architecture that provides and exploits contextual embeddings of categorical features. 分類的特徴のコンテキスト埋め込みを提供し,活用するアーキテクチャであるTabTransformerを提案する。 0.71
We provide extensive empirical evidence showing TabTransformer is superior to both a baseline MLP and recent deep networks for tabular data while matching the performance of tree-based ensemble models (GBDT). 我々は,TabTransformerがベースラインMLPと最近のグラフデータのためのディープネットワークの両方より優れていることを示す広範な実証的証拠を,ツリーベースアンサンブルモデル(GBDT)の性能に適合しながら提示する。 0.64
2. We investigate the resulting contextual embeddings and highlight their interpretability, contrasted to parametric context-free embeddings achieved by existing art. 2. その結果得られた文脈埋め込みを調査し、その解釈可能性を強調し、既存のアートによって達成されたパラメトリックコンテキストフリー埋め込みと対比する。 0.68
3. We demonstrate the robustness of TabTransformer against 3. タブトランスフォーマーの堅牢性を示す。 0.69
noisy and missing data. ノイズとデータ不足。 0.60
4. We provide and extensively study a two-phase pretraining then fine-tune procedure for tabular data, beating the state-of-the-art performance of semi-supervised learning methods. 4. 半教師付き学習法の最先端性能を上回って,表データに対する2相事前学習と微調整の手順を幅広く検討した。 0.74
2 The TabTransformer The TabTransformer architecture comprises a column embedding layer, a stack of N Transformer layers, and a multilayer perceptron. 2 タブトランス TabTransformerアーキテクチャは、カラム埋め込み層、Nトランスフォーマー層のスタック、および多層パーセプトロンを含む。
訳抜け防止モード: 2 タブトランス Tab Transformerアーキテクチャは、Nトランスフォーマー層のスタックであるカラム埋め込み層で構成されている。 そして多層パーセプトロン
0.73
Each Transformer layer (Vaswani et al 2017) consists of a multi-head self-attention layer followed by a position-wise feed-forward layer. 各トランスフォーマー層(vaswani et al 2017)は、マルチヘッドのセルフアテンション層と、位置方向のフィードフォワード層で構成される。 0.74
The architecture of TabTransformer is shown below in Figure 1. tabtransformerのアーキテクチャは下記の図1に示す。 0.72
Figure 1: The architecture of TabTransformer. 図1: TabTransformerのアーキテクチャ。 0.66
Let (x, y) denote a feature-target pair, where x ≡ {xcat, xcont}. x, y) を特徴対象対とし、x > {xcat, xcont} とする。 0.60
The xcat denotes all the categorical features and xcont ∈ Rc denotes all of the c continuous features. xcat はすべての圏的特徴を表し、xcont ∈ Rc はすべての c 連続特徴を表す。 0.81
Let xcat ≡ {x1, x2,··· , xm} with each xi being a categorical feature, for i ∈ {1,··· , m}. xcat を x1, x2,··· , xm} とし、各 xi は i ∈ {1,··· , m} に対して圏的特徴とする。 0.81
We embed each of the xi categorical features into a parametric embedding of dimension d using Column embedding, which is explained below in detail. それぞれの xi 分類的特徴をコロン埋め込みを用いて次元 d のパラメトリックな埋め込みに埋め込む。
訳抜け防止モード: それぞれの xi 分類的特徴をコロン埋め込みを用いて次元 d のパラメトリックな埋め込みに埋め込む。 以下に詳述する。
0.59
Let eφi (xi) ∈ Rd for i ∈ {1,··· , m} be the embedding of the xi feature, and Eφ(xcat) = {eφ1 (x1),··· , eφm(xm)} be the set of embeddings for all the categorical features. i ∈ {1,··· , m} に対して eφi (xi) ∈ Rd を xi の埋め込みとし、Eφ(xcat) = {eφ1 (x1),··· , eφm(xm)} をすべての圏的特徴に対する埋め込みの集合とする。 0.85
these parametric embeddings Eφ(xcat) are inputted to the first Transformer layer. これらのパラメトリック埋め込みEφ(xcat)は、第1のトランスフォーマー層に入力される。 0.70
The output of the output (複数形 outputs) 0.56
Next, 次に 0.73
英語(論文から抽出)日本語訳スコア
first Transformer layer is inputted to the second layer Transformer, and so forth. 第1変圧器層は、第2層変圧器等に入力される。 0.73
Each parametric embedding is transformed into contextual embedding when outputted from the top layer Transformer, through successive aggregation of context from other embeddings. 各パラメトリック埋め込みは、トップレイヤトランスフォーマーから出力されたときにコンテキスト埋め込みに変換され、他の埋め込みからコンテキストを連続的に集約する。 0.65
We denote the sequence of Transformer layers as a function fθ. トランスフォーマー層のシーケンスを関数 fθ として表す。 0.71
The function fθ operates on parametric embeddings {eφ1(x1),··· , eφm(xm)} and returns the corresponding contextual embeddings {h1,··· , hm} where hi ∈ Rd for i ∈ {1,··· , m}. 関数 fθ はパラメトリック埋め込み {eφ1(x1),··· , eφm(xm)} 上で動作し、対応する文脈埋め込み {h1,···· , hm} を返す。
訳抜け防止モード: 関数 fθ はパラメトリック埋め込み { eφ1(x1 ), · · · · eφm(xm ) } で対応するコンテキスト埋め込み { h1, · · · ·, hm } ここで i ∈ { 1 に対して hi ∈ Rd が成立する。 · · · , m } .
0.80
The contextual embeddings {h1,··· , hm} are concatenated along with the continuous features xcont to form a vector of dimension (d × m + c). 文脈埋め込み {h1,···· , hm} は連続的特徴 xcont とともに連結され、次元のベクトル (d × m + c) を形成する。 0.76
This vector is inputted to an MLP, denoted by gψ, to predict the target y. このベクトルは、ターゲット y を予測するために g で表される MLP に入力される。 0.83
Let H be the cross-entropy for classification tasks and mean square error for regression tasks. H を分類タスクのクロスエントロピーとし、回帰タスクの平均平方誤差とする。 0.73
We minimize the following loss function L(x, y) to learn all the TabTransformer parameters in an end-to-end learning by the first-order gradient methods. 我々は,次の損失関数 L(x, y) を最小化して,一階勾配法によるエンドツーエンド学習において,すべてのTabTransformerパラメータを学習する。 0.72
The TabTransformer parameters include φ for column embedding, θ for Transformer layers, and ψ for the top MLP layer. TabTransformerパラメータには、カラム埋め込み用のφ、Transformerレイヤ用のθ、上位MLPレイヤ用の φ が含まれる。 0.76
L(x, y) ≡ H(gψ(fθ(Eφ(xcat)), xcont), y) . L(x, y) は H(g)(fθ(Eφ(xcat)), xcont), y) である。 0.82
(1) Below, we explain the Transformer layers and column embedding. (1) 以下では、トランスフォーマー層とカラム埋め込みについて説明する。 0.76
Transformer. トランスフォーマー。 0.60
A Transformer (Vaswani et al 2017) consists of a multi-head self-attention layer followed by a position-wise feed-forward layer, with element-wise addition and layer-normalization being done after each layer. トランスフォーマー(vaswani et al 2017)は、マルチヘッドのセルフアテンション層からなり、続いて位置方向のフィードフォワード層からなり、各レイヤの後に要素方向の加算と層正規化が行われる。 0.66
A self-attention layer comprises three parametric matricesKey, Query and Value. セルフアテンション層は、3つのパラメトリックマトリクスキー、クエリ、値からなる。 0.52
Each input embedding is projected on to these matrices, to generate their key, query and value vectors. 各入力埋め込みはこれらの行列に投影され、キー、クエリ、値ベクトルを生成する。 0.71
Formally, let K ∈ Rm×k, Q ∈ Rm×k and V ∈ Rm×v be the matrices comprising key, query and value vectors of all the embeddings, respectively, and m be the number of embeddings inputted to the Transformer, k and v be the dimensions of the key and value vectors, respectively. 形式的には、K ∈ Rm×k, Q ∈ Rm×k と V ∈ Rm×v を、それぞれすべての埋め込みの鍵ベクトル、クエリベクトル、値ベクトルからなる行列とし、m を変換器に入力される埋め込みの数、k と v をそれぞれ鍵ベクトルと値ベクトルの次元とする。 0.74
Every input embedding attends to all other embeddings through a Attention head, which is computed as follows: Attention(K, Q, V ) = A · V, すべての入力埋め込みは注意ヘッドを通じて他の全ての埋め込みに付随し、次のように計算される。
訳抜け防止モード: すべての入力埋め込みは、アテンションヘッドを通して他のすべての埋め込みに付随する。 注意(K, Q, V) = A · V である。
0.66
√ where A = softmax((QK T )/ k). ここで a = softmax((qk t )/ k) である。 0.79
For each embedding, the attention matrix A ∈ Rm×m calculates how much it attends to other embeddings, thus transforming the embedding into contextual one. それぞれの埋め込みについて、アテンション行列 A ∈ Rm×m は、それが他の埋め込みにどれだけ貢献するかを計算し、埋め込みを文脈的に変換する。 0.48
The output of the attention head of dimension v is projected back to the embedding of dimension d through a fully connected layer, which in turn is passed through two position-wise feed-forward layers. 次元vの注意ヘッドの出力は、次元dを完全連結層を通して埋め込み、それが2つの位置方向フィードフォワード層を通過するように投影される。 0.69
The first layer expands the embedding to four times its size and the second layer projects it back to its original size. 第1の層は埋め込みを4倍のサイズに拡張し、第2の層はそれを元のサイズに戻す。 0.84
Column embedding. For each categorical feature (column) i, we have an embedding lookup table eφi(. カラム埋め込み。 各カテゴリの特徴 (column) i に対して、埋め込みルックアップテーブル eφi(.) がある。 0.61
), for i ∈ {1, 2, ..., m}. は i ∈ {1, 2, ..., m} に対して成り立つ。 0.73
For ith feature with di classes, the embedding table eφi(.) di クラスの ith 機能に対して、埋め込みテーブル eφi() 0.80
has (di + 1) embeddings where the additional embedding corresponds to a missing value. has (di + 1) 埋め込みは、追加の埋め込みが欠落した値に対応する。 0.72
The embedding for the encoded value xi = j ∈ [0, 1, 2, .., di] is eφi(j) = [cφi, wφij ], where cφi ∈ R(cid:96), wφij ∈ Rd−(cid:96). 符号化された値 xi = j ∈ [0, 1, 2, .., di] の埋め込みは eφi(j) = [cφi, wφij ] であり、cφi ∈ R(cid:96), wφij ∈ Rd−(cid:96) である。 0.82
The (2) dimension of cφi, (cid:96), is a hyper-parameter. (2) cφi の次元 (cid:96) は超パラメータである。 0.62
The unique identifier cφi ∈ R(cid:96) distinguishes the classes in column i from those in the other columns. ユニークな識別子 cφi ∈ R(cid:96) は列 i のクラスを他の列のクラスと区別する。 0.76
The use of unique identifier is new and is particularly designed for tabular data. ユニークな識別子の使用は新しいもので、特に表データ用に設計されている。 0.65
Rather in language modeling, embeddings are element-wisely added with the positional encoding of the word in the sentence. 言語モデリングでは、埋め込みは文中の単語の位置符号化と共に要素的に付加される。 0.80
Since, in tabular data, there is no ordering of the features, we do not use positional encodings. 表形式のデータでは、特徴の順序付けがないため、位置エンコーディングは使用しない。 0.61
An ablation study on different embedding strategies is given in Appendix A. 異なる埋め込み戦略に関するアブレーション研究は、Appendix Aで行われている。 0.66
The strategies include both different choices for (cid:96), d and element-wise adding the unique identifier and feature-value specific embeddings rather than concatenating them. 戦略には、(cid:96)、d、および要素単位でユニークな識別子と特徴値固有の埋め込みを追加するための選択肢がある。 0.67
Pre-training the Embeddings. 埋め込みの事前訓練。 0.64
The contextual embeddings explained above are learned in end-to-end supervised training using labeled examples. 上述のコンテキスト埋め込みは、ラベル付き例を用いてエンドツーエンドの教師付きトレーニングで学習される。 0.50
For a scenario, when there are a few labeled examples and a large number of unlabeled examples, we introduce a pre-training procedure to train the Transformer layers using unlabeled data. 例えば、いくつかのラベル付き例と多数のラベル付き例がある場合、ラベル付きデータを使用してトランスフォーマー層をトレーニングするための事前トレーニング手順を導入する。 0.68
This is followed by fine-tuning of the pre-trained Transformer layers along with the top MLP layer using the labeled data. この後、ラベル付きデータを使用して、事前学習されたトランスフォーマー層とトップmlp層を微調整する。 0.66
For fine-tuning, we use the supervised loss defined in Equation (1). 微調整には、式(1)で定義される教師付き損失を用いる。 0.59
We explore two different types of pre-training procedures, the masked language modeling (MLM) (Devlin et al 2019) and the replaced token detection (RTD) (Clark et al 2020). 我々は,マスク言語モデリング (mlm) (devlin et al 2019) と置換トークン検出 (rtd) (clark et al 2020) の2つの異なる事前学習手順を検討した。 0.73
Given an input xcat = {x1, x2, ..., xm}, MLM randomly selects k% features from index 1 to m and masks them as missing. 入力 xcat = {x1, x2, ..., xm} が与えられたとき、MLM は指数 1 から m への k% の特徴をランダムに選択し、欠落を隠蔽する。 0.73
The Transformer layers along with the column embeddings are trained by minimizing cross-entropy loss of a multi-class classifier that tries to predict the original features of the masked features, from the contextual embedding outputted from the top-layer Transformer. マルチクラス分類器のクロスエントロピー損失を最小化し、トップレイヤ変換器から出力されるコンテキスト埋め込みからマスク特徴の本来の特徴を予測することにより、トランスフォーマー層とカラム埋め込みを訓練する。 0.77
Instead of masking features, RTD replaces the original feature by a random value of that feature. 機能のマスキングの代わりに、RTDは元の機能をその機能のランダムな値で置き換える。 0.76
Here, the loss is minimized for a binary classifier that tries to predict whether or not the feature has been replaced. ここでは、この機能が置き換えられたかどうかを予測しようとするバイナリ分類器の損失を最小限にする。 0.75
The RTD procedure as proposed in (Clark et al 2020) uses auxiliary generator for sampling a subset of features that a feature should be replaced with. 提案されたRTDプロシージャ(Clark et al 2020)は、機能を置き換えるべき機能のサブセットをサンプリングするために補助ジェネレータを使用する。 0.68
The reason they used an auxiliary encoder network as the generator is that there are tens of thousands of tokens in language data and a uniformly random token is too easy to detect. 彼らがジェネレータとして補助エンコーダネットワークを使用した理由は、言語データには数万のトークンがあり、均一にランダムなトークンは検出しにくいためである。 0.80
In contrast, (a) the number of classes within each categorical feature is typically limited; (b) a different binary classifier is defined for each column rather than a shared one, as each column has its own embedding lookup table. 対照的に、(a) 各カテゴリ機能内のクラス数は典型的には限定的であり、(b)各カラムには、それぞれのカラムに独自の埋め込みルックアップテーブルがあるため、それぞれのカラムに対して異なるバイナリ分類器が定義される。 0.79
We name the two pre-training methods as TabTransformer-MLM and TabTransformer-RTD. この2つの事前学習手法をTabTransformer-MLMとTabTransformer-RTDと呼ぶ。 0.57
In our experiments, the replacement value k is set to 30. 実験では、置換値kを30に設定する。 0.63
An ablation study on k is given in Appendix A. k のアブレーションの研究は Appendix A で行われている。 0.68
3 Experiments Data. We evaluate TabTransformer and baseline models on 15 publicly available binary classification datasets from the UCI repository (Dua and Graff 2017), the AutoML Challenge (Guyon et al 2019), and Kaggle (Kaggle, Inc. 2017) for both supervised and semi-supervised learning. 実験3 データ。 uciリポジトリ(dua and graff 2017)、automl challenge(guyon et al 2019)、kaggle(kaggle, inc. 2017)の15の公開バイナリ分類データセットについて、教師付き学習と半教師付き学習の両方について、tabtransformerとベースラインモデルを評価した。 0.75
Each dataset is divided into five cross-validation splits. 各データセットは5つのクロスバリデーション分割に分割される。 0.63
The training/validation/ testing proportion of the data for each 各データのトレーニング/検証/テストの割合 0.81
英語(論文から抽出)日本語訳スコア
split are 65/15/20%. 65/15/20%。 0.68
The number of categorical features across dataset ranges from 2 to 136. データセットの分類的特徴の数は2から136までである。 0.83
In the semi-supervised experiments, for each dataset and split, the first p observations in the training data are marked as the labeled data and the remaining training data as the unlabeled set. 半教師あり実験では、データセットと分割毎に、訓練データの最初のp観測をラベル付きデータ、残りの訓練データをラベル付きデータセットとしてマークする。 0.76
The value of p is chosen as 50, 200, and 500, corresponding to 3 different scenarios. p の値は 3 つの異なるシナリオに対応する 50, 200, 500 で選択される。 0.84
In the supervised experiments, each training dataset is fully labeled. 教師付き実験では、各トレーニングデータセットが完全にラベル付けされる。 0.63
Summary statistics of the all the datasets are provided in Table 8, 9 in Appendix C. Setup. すべてのデータセットの統計は、Appendix C. Setupのテーブル8、9で提供されている。 0.77
For the TabTransformer, the hidden (embedding) dimension, the number of layers and the number of attention heads are fixed to 32, 6, and 8 respectively. TabTransformerでは、隠された(埋め込み)次元、レイヤ数、アテンションヘッド数はそれぞれ32、6、8に固定される。
訳抜け防止モード: TabTransformerの場合、隠された(埋め込み)次元、レイヤの数 そして 注目の頭数は それぞれ 32、6、8に固定されます。
0.60
The MLP layer sizes are set to {4 × l, 2 × l}, where l is the size of its input. mlp層のサイズは {4 × l, 2 × l} に設定され、ここで l はその入力の大きさである。 0.85
For hyperparameter optimization (HPO), each model is given 20 HPO rounds for each cross-validation split. ハイパーパラメータ最適化(HPO)では、各モデルに20個のHPOラウンドが与えられる。 0.76
For evaluation metrics, we use the Area under the curve (AUC) (Bradley 1997). 評価指標としてAUC (Area under the curve) を用いる(Bradley 1997)。 0.69
Note, the pre-training is only applied in semi-supervised scenario. なお、事前学習は半教師付きシナリオにのみ適用される。 0.60
We do not find much benefit in using it when the entire data is labeled. データ全体がラベル付けされているとき、それを使用するメリットはあまり見つからない。 0.70
Its benefit is evident when there is a large number of unlabeled examples and a few labeled examples. その利点は、多くのラベルなしの例といくつかのラベル付き例がある場合に明らかである。 0.66
Since in this scenario the pre-training provides a representation of the data that could not have been learned based only on the labeled examples. このシナリオでは、事前トレーニングはラベル付きの例だけでは学習できなかったデータの表現を提供する。 0.68
The experiment section is organized as follows. 実験部は以下の通り構成されている。 0.65
In Section 3.1, we first demonstrate the effectiveness of the attentionbased Transformer by comparing our model with the one without the Transformers (equivalently an MLP model). 第3節1では、まず、本モデルとトランスを使用しないモデル(mlpモデル)との比較により、注意型トランスフォーマーの有効性を実証する。 0.59
In Section 3.2, we illustrate the robustness of TabTransformer against noisy and missing data. セクション3.2では、ノイズや欠落データに対するTabTransformerの堅牢性を説明します。 0.64
Finally, extensive evaluation on various methods are conducted in Section 3.3 for supervised learning, and in Section 3.4 for semi-supervised learning. 最後に,教師付き学習のセクション3.3,半教師付き学習のセクション3.4において,様々な方法に関する広範な評価を行った。 0.65
3.1 The Effectiveness of the Transformer Layers First, a comparison between TabTransformers and the baseline MLP is conducted in a supervised learning scenario. 3.1 トランスフォーマー層の有効性第一に,教師付き学習シナリオにおいて,タブトランスフォーマーとベースラインMLPの比較を行う。 0.83
We remove the Transformer layers fθ from the architecture, fix the rest of the components, and compare it with the original TabTransformer. アーキテクチャからTransformer層 fθ を取り除き、残りのコンポーネントを修正し、元のTabTransformerと比較します。 0.66
The model without the attention-based Transformer layers is equivalently an MLP. 注意に基づくトランスフォーマー層のないモデルはmlpと同値である。 0.67
The dimension of embeddings d for categorical features is set as 32 for both models. 分類的特徴に対する埋め込みの次元 d は、両方のモデルに対して 32 として設定される。 0.67
The comparison results over 15 datasets are presented in Table 1. 比較結果は15のデータセットで表1に表示される。 0.81
The TabTransformer with the Transformer layers outperforms the baseline MLP on 14 out of 15 datasets with an average 1.0% gain in AUC. Transformer層を備えたTabTransformerは15データセット中14のベースラインMLPよりも優れており、AUCでは平均1.0%上昇している。 0.71
Next, we take contextual embeddings from different layers of the Transformer and compute a t-SNE plot (Maaten and Hinton 2008) to visualize their similarity in function space. 次に、トランスフォーマーの異なる層からコンテキスト埋め込みを行い、t-sneプロット(maaten と hinton 2008)を計算し、関数空間における類似性を可視化する。 0.73
More precisely, for each dataset we take its test data, pass their categorical features into a trained TabTransformer, and extract all contextual embeddings (across all columns) from a certain layer of the Transformer. より正確には、各データセットについて、そのテストデータを取得し、そのカテゴリの特徴をトレーニングされたtabtransformerに渡し、トランスフォーマの特定の層からすべてのコンテキスト埋め込み(すべての列を横切る)を抽出します。 0.70
The t-SNE algorithm is then used to reduce each embedding to a 2D point in the t-SNE plot. t-sneアルゴリズムは、t-sneプロット内の2d点への埋め込みを減らすために使われる。
訳抜け防止モード: その後 t - SNE アルゴリズムが使われる t - SNEプロット内の2Dポイントへの埋め込みを減らす。
0.77
Figure 2 (left) shows the 2D visualization of embeddings from the last layer of the Transformer for dataset bank marketing. 図2(左)は、データセットバンクマーケティングのためのTransformerの最後のレイヤからの埋め込みの2D可視化を示しています。 0.76
Each marker in the plot represents an average of 2D points over the test data points for a certain class. プロット内の各マーカーは、あるクラスのテストデータポイントに対する平均2dポイントを表す。 0.74
We can see that semantically similar classes are close 意味的に類似したクラスが近いことが分かる 0.68
Table 1: Comparison between TabTransfomers and the baseline MLP. 表1: TabTransfomers とベースライン MLP の比較。 0.68
The evaluation metric is AUC in percentage. 評価基準はAUCである。 0.42
Dataset albert 1995 income dota2games hcdr main adult bank marketing blastchar insurance co jasmine online shoppers philippine qsar bio seismicbumps shrutime spambase データセット albert 1995 income dota2games hcdr main adult bank marketing blastchar insurance co jasmine online shoppers philippines qsar bio seismicbumps shrutime spambase 0.94
Baseline MLP TabTransformer Gain (%) Baseline MLP Tab Transformer Gain (%) 0.93
74.0 90.5 63.1 74.3 72.5 92.9 83.9 69.7 85.1 91.9 82.1 91.0 73.5 84.6 98.4 74.0 90.5 63.1 74.3 72.5 92.9 83.9 69.7 85.1 91.9 82.1 91.0 73.5 84.6 98.4 0.41
75.7 90.6 63.3 75.1 73.7 93.4 83.5 74.4 85.3 92.7 83.4 91.8 75.1 85.6 98.5 75.7 90.6 63.3 75.1 73.7 93.4 83.5 74.4 85.3 92.7 83.4 91.8 75.1 85.6 98.5 0.41
1.7 0.1 0.2 0.8 1.2 0.5 -0.4 4.7 0.2 0.8 1.3 0.8 1.6 1.0 0.1 1.7 0.1 0.2 0.8 1.2 0.5 -0.4 4.7 0.2 0.8 1.3 0.8 1.6 1.0 0.1 0.40
with each other and form clusters in the embedding space. 相互に結合し、埋め込み空間にクラスタを形成する。 0.77
Each cluster is annotated by a set of labels. 各クラスタにはラベルのセットがアノテートされる。 0.81
For example, we find that all of the client-based features (color markers) such as job, education level and martial status stay close in the center and non-client based features (gray markers) such as month (last contact month of the year), day (last contact day of the week) lie outside the central area; in the bottom cluster the embedding of owning a housing loan stays close with that of being default; over the left cluster, embeddings of being a student, martial status as single, not having a housing loan, and education level as tertiary get together; and in the right cluster, education levels are closely associated with the occupation types (Torpey and Watson 2014). For example, we find that all of the client-based features (color markers) such as job, education level and martial status stay close in the center and non-client based features (gray markers) such as month (last contact month of the year), day (last contact day of the week) lie outside the central area; in the bottom cluster the embedding of owning a housing loan stays close with that of being default; over the left cluster, embeddings of being a student, martial status as single, not having a housing loan, and education level as tertiary get together; and in the right cluster, education levels are closely associated with the occupation types (Torpey and Watson 2014). 0.88
In Figure 2, the center and right plots are t-SNE plots of embeddings before being passed through the Transformer and the context-free embeddings from MLP, respectively. 図2では、中心プロットと右プロットはそれぞれmlpからトランスフォーマーを通過する前に組込みのt-sneプロットとコンテキストフリー組込みである。 0.64
For the embeddings before being passed into the Transformer, it starts to distinguish the non-client based features (gray markers) from the client-based features (color markers). Transformerに渡される前の埋め込みについては、非クライアントベースの機能(グレーマーカー)とクライアントベースの機能(カラーマーカー)を区別し始めます。 0.77
For the embeddings from MLP, we do not observe such pattern and many categorical features which are not semantically similar are grouped together, as indicated by the annotation in the plot. MLPからの埋め込みについては、そのようなパターンを観察せず、プロットのアノテーションで示されるように、意味的に類似しない多くの分類的特徴がグループ化される。 0.71
In addition to prove the effectiveness of Transformer layers, on the test data we take all of the contextual embeddings from each Transformer layer of a trained TabTransformer, use the embeddings from each layer along with the continuous variables as features, and separately fit a linear model with target y. Transformerレイヤの有効性の証明に加えて、テストデータでは、トレーニングされたTabTransformerの各Transformerレイヤからのコンテキスト埋め込みをすべて取り、各レイヤからの埋め込みと連続変数を特徴として使用し、ターゲットyに線形モデルを個別に適合させます。 0.73
Since all of the experimental datasets are for binary classification, the linear model is logistic regression. 実験データセットはすべてバイナリ分類のためなので、線形モデルはロジスティック回帰である。 0.78
The motivation for this evaluation is defining the success of a simple linear model as a measure of quality for the learned embeddings. この評価の動機は、学習した埋め込みの品質の尺度として単純な線形モデルの成功を定義することである。 0.78
For each dataset and each layer, an average of CV-score in AUC on the test data is computed. 各データセットと各レイヤについて、テストデータに対するAUCの平均CVスコアを算出する。 0.75
The evaluation is conducted on the entire test data with number of data points over 9000. この評価は、9000以上のデータポイントを持つテストデータ全体に対して行われる。 0.78
Figure 3 presents results for dataset BankMarketing, Adult, and QSAR Bio. 図3は、バンクマーケティング、アダルト、QSAR Bioのデータセットの結果を示します。 0.65
For each line, each prediction score is normalized by the “best score” from an end-to-end trained TabTransformer for the corresponding dataset. 各行ごとに、各予測スコアは、対応するデータセットに対するエンドツーエンドのトレーニングされたタブトランスフォーマからの“ベストスコア”によって正規化される。 0.54
We also ex- 元も。 0.38
英語(論文から抽出)日本語訳スコア
Figure 2: t-SNE plots of learned embeddings for categorical features on dataset BankMarketing. 図2:t-sne データセットの銀行マーケティングにおけるカテゴリの特徴を学習した埋め込みのプロット。 0.57
Left: TabTransformer-the embeddings generated from the last layer of the attention-based Transformer. 左: tabtransformer-the embeddeds generated from the last layer of the attention-based transformer。 0.82
Center: TabTransformer-the embeddings before being passed into the attention-based Transformer. センター: TabTransformer - 注意ベースのTransformerに渡す前に埋め込む。 0.79
Right: The embeddings learned from MLP. 右:MLPから学んだ埋め込み。 0.65
plore the average and maximum pooling strategy (Howard and Ruder 2018) rather than concatenation of embeddings as the features for the linear model. 埋め込みを線形モデルの特徴として結合するのではなく、平均および最大プーリング戦略(howard and ruder 2018)を考案する。 0.76
The upward pattern clearly shows that embeddings becomes more effective as the Transformer layer progresses. 上向きのパターンは、トランスフォーマー層が進行するにつれて埋め込みがより効果的になることを示している。
訳抜け防止モード: 上向きのパターンは トランスフォーマー層が進むにつれ、埋め込みはより効果的になる。
0.70
In contrast, the embeddings from MLP (the single black markers) perform worse with a linear model. 対照的に、MLP(単一黒マーカー)からの埋め込みは線形モデルでは悪化する。 0.68
Furthermore, the last value in each line close to 1.0 indicates that a linear model with the last layer of embeddings as features can achieve reliable accuracy, which confirms our assumption. さらに、1.0 に近い各行の最後の値は、埋め込みの最後の層を特徴として持つ線形モデルが信頼できる精度を達成できることを示している。 0.85
Figure 3: Predictions of liner models using features as the embeddings extracted from different Transformer layers in TabTransformer. 図3:tabtransformerの異なるトランスフォーマー層から抽出した埋め込みとしての特徴を用いたライナーモデルの予測。 0.73
Layer 0 corresponds to the embeddings before being passed into the Transformer layers. 層0は、トランスフォーマー層に渡される前の埋め込みに対応する。 0.78
For each dataset, each prediction score is normalized by the “best score” from an end-to-end trained TabTransformer. 各データセットに対して、各予測スコアは、エンドツーエンドのトレーニングされたTabTransformerの“ベストスコア”によって正規化される。 0.49
3.2 The Robustness of TabTransformer We further demonstrate the robustness of TabTransformer on the noisy data and data with missing values, against the baseline MLP. 3.2 TabTransformer のロバスト性 ベースライン MLP に対してノイズの多いデータと不足値のデータに対して TabTransformer のロバスト性をさらに実証する。 0.80
We consider these two scenarios only on categorical features to specifically prove the robustness of contextual embeddings from the Transformer layers. これらの2つのシナリオは、トランスフォーマー層からのコンテキスト埋め込みのロバスト性を具体的に証明するために、カテゴリの特徴のみに基づいて考えます。
訳抜け防止モード: この2つのシナリオは カテゴリー的な特徴だけで トランス層からのコンテキスト埋め込みのロバスト性を具体的に証明する。
0.70
Noisy Data. On the test examples, we firstly contaminate the data by replacing a certain number of values by randomly generated ones from the corresponding columns (features). ノイズデータ。 テスト例では、まず、ある数の値を対応する列(機能)からランダムに生成したものに置き換えることで、データを汚染する。 0.70
Next, the noisy data are passed into a trained TabTransformer to compute a prediction AUC score. 次に、ノイズデータをトレーニングされたTabTransformerに渡してAUCスコアを算出する。
訳抜け防止モード: 次に、ノイズデータはトレーニングされたTabTransformerに渡される 予測AUCスコアを計算する。
0.66
Results on a set of 3 different dataets are presented in Figure 4. 3つの異なるデータセットのセットの結果を図4に示します。 0.78
As the noisy rate increases, TabTransformer performs better in prediction accuracy and thus is more robust than MLP. ノイズ率の増加に伴い、TabTransformerは予測精度が向上し、MPPよりも堅牢である。
訳抜け防止モード: ノイズ率の増加に伴い、TabTransformerは予測精度が向上する したがって、MLPよりも堅牢である。
0.75
In particular notice the Blastchar dataset where the performance is near identical with no noise, yet as the noise increases, TabTransformer becomes significantly more performant compared to the baseline. 特に注意すべきなのは、パフォーマンスがノイズとほぼ同じであるsvashcharデータセットだが、ノイズが増加するにつれて、tabtransformerはベースラインよりも大幅にパフォーマンスが向上する点だ。 0.58
We conjecture that the robustness comes from the contextual property of the embeddings. 我々は、ロバスト性は埋め込みの文脈的性質から生じると推測する。 0.63
Despite a feature being noisy, it draws information from the correct features allowing for a certain amount of correction. ノイズのある特徴にもかかわらず、一定の量の修正を可能にする正しい特徴から情報を引き出す。 0.80
Data with Missing Values. 値が欠けているデータ。 0.72
Similarly, on the test data we artificially select a number of values to be missing and send the data with missing values to a trained TabTransformer to compute the prediction score. 同様に、テストデータ上で、欠落する多数の値を人工的に選択し、トレーニング済みのTabTransformerにデータを送り、予測スコアを計算します。
訳抜け防止モード: 同様に、テストデータでは、欠落する多くの値を人工的に選択します。 不足した値のデータをトレーニング済みのTabTransformerに送る 予測スコアを計算します
0.71
There are two options to handle the embeddings of missing values: (1) Use the average learned embeddings over all classes in the corresponding column; (2) the embedding for the class of missing value, the additional embedding for each column mentioned in Section 2. 欠落した値の埋め込みを扱うには、2つの選択肢がある: (1) 対応する列内のすべてのクラスについて平均学習した埋め込みを使う; (2) 欠落した値のクラスへの埋め込み、(2) 第2節で述べた各列に対する追加の埋め込み。 0.71
Since the benchmark datasets do not contain enough missing values to effectively train the embedding in option (2), we use the average embedding in (1) for imputation. ベンチマークデータセットには,オプション (2) への埋め込みを効果的に訓練するための十分な不足値が含まれていないため,(1) への埋め込みの平均値を用いて計算を行う。 0.64
Results on the same 3 datasets are presented in Figure 5. 同じ3つのデータセットの結果を図5に示します。 0.81
We can see the same patterns of the noisy data case, i.e. ノイズの多いデータケースでは、同じパターンが見られます。 0.59
that the TabTransformer shows better stability than MLP in handling missing values. TabTransformerは、欠落した値を扱う場合、MPPよりも安定性が高い。 0.52
3.3 Supervised Learning Here we compare the performance of TabTransformer against following four categories of methods: (a) Logistic 3.3 教師付き学習 ここでは、TabTransformerのパフォーマンスを以下の4つの手法のカテゴリと比較する。 0.78
英語(論文から抽出)日本語訳スコア
Figure 4: Performance of TabTransformer and MLP with noisy data. 図4: ノイズの多いデータを持つTabTransformer と MLP のパフォーマンス。 0.78
For each dataset, each prediction score is normalized by the score of TabTransformer at 0 noise. 各データセットについて、各予測スコアは0ノイズのtabtransformerスコアで正規化される。 0.64
Table 2: Model performance in supervised learning. 表2: 教師付き学習におけるモデルパフォーマンス。 0.76
The evaluation metric is mean ± standard deviation of AUC score over the 15 datasets for each model. 評価基準は, 各モデルの15データセットに対するAUCスコアの±標準偏差である。 0.76
Larger the number, better the result. 数字が大きいほど、結果が良くなる。 0.78
The top 2 numbers are bold. 上位2つの数字は太字である。 0.62
Model Name TabTransformer MLP GBDT Sparse MLP Logistic Regression TabNet VIB Model Name Tab Transformer MLP GBDT Sparse MLP Logistic Regression TabNet VIB 0.91
Mean AUC (%) 82.8 ± 0.4 81.8 ± 0.4 82.9 ± 0.4 81.4 ± 0.4 80.4 ± 0.4 77.1 ± 0.5 80.5 ± 0.4 平均AUC(%) 82.8 ± 0.4 81.8 ± 0.4 82.9 ± 0.4 81.4 ± 0.4 80.4 ± 0.4 77.1 ± 0.5 80.5 ± 0.4 0.60
regression and GBDT (b) MLP and a sparse MLP following (Morcos et al 2019) (c) TabNet model of Arik and Pfister (2019) (d) and the Variational Information Bottleneck model (VIB) of Alemi et al (2017). regression and gbdt (b) mlp and a sparse mlp following (morcos et al 2019) (c) tabnet model of arik and pfister (2019) (d) and the variational information bottleneck model (vib) of alemi et al (2017)。 0.68
Results are summarized in Table 2. 結果は表2にまとめられている。 0.73
TabTransformer, MLP, and GBDT are the top 3 performers. TabTransformer、MLP、GBDTがトップ3のパフォーマーである。 0.69
The TabTransformer outperforms the baseline MLP with an average 1.0% gain and perform comparable with the GBDT. TabTransformer はベースライン MLP を平均1.0% のゲインで上回り、GBDT に匹敵するパフォーマンスを発揮する。 0.71
Furthermore, the TabTransformer is significantly better than TabNet and VIB, the recent deep networks for tabular data. さらに、tabtransformerは、最近のタブデータ用のディープネットワークであるtabnetやvibよりもはるかに優れている。 0.67
For experiment and model details, see Appendix B. 実験とモデルの詳細は、 appendix b を参照してください。 0.66
The models’ performances on each individual dataset are presented in Table 16 and 17 in Appendix C. 各データセットにおけるモデルのパフォーマンスは、appendix cのテーブル16と17で表される。 0.86
3.4 Semi-supervised Learning Lastly, we evaluate the TabTransformer under the semisupervised learning scenario where few labeled training examples are available together with a significant number of 3.4 半教師付き学習 最後に,ラベル付き学習例がほとんどない半教師付き学習シナリオ下で,TabTransformerを評価する。 0.62
Figure 5: Performance of TabTransformer and MLP under missing data scenario. 図5: 欠落したデータシナリオ下でのTabTransformerとMLPのパフォーマンス。 0.75
For each dataset, each prediction score is normalized by the score of TabTransformer trained without missing values. 各データセットについて、各予測スコアは、値の欠如なく訓練されたタブトランスフォーマーのスコアによって正規化される。 0.49
unlabeled samples. ラベルなしのサンプル 0.74
Specifically, we compare our pretrained and then fine-tuned TabTransformer-RTD/M LM against following semi-supervised models: (a) Entropy Regularization (ER) (Grandvalet and Bengio 2006) combined with MLP and TabTransformer (b) Pseudo Labeling (PL) (Lee 2013) combined with MLP, TabTransformer, and GBDT (Jain 2017) (c) MLP (DAE): an unsupervised pre-training method designed for deep models on tabular data: the swap noise Denoising AutoEncoder (Jahrer 2018). 具体的には,<a>Entropy Regularization (ER) (Grandvalet and Bengio 2006) with MLP and TabTransformer (b) Pseudo Labeling (PL) (Lee 2013) with MLP, TabTransformer, and GBDT (Jain 2017) (c) MLP (DAE):スワップノイズDenoising AutoEncoder (Jahrer 2018)。
訳抜け防止モード: 具体的には,調整済みタブトランスフォーマ - rtd / mlm と (a ) entropy regularization (er ) (grandvalet and bengio 2006) と mlp を組み合わせることで,教師付きモデルと比較した。 and tabtransformer (b) pseudo labeling (pl ) (lee 2013) with mlp, tabtransformer, and gbdt (jain 2017 ) (c ) mlp (dae ) : a unsupervised pre- training method designed for deep models on tabular data : the swap noise denoising autoencoder (jahrer 2018 )
0.78
The pre-training models プレトレーニングモデル 0.54
TabTransformer-MLM, TabTransformer-RTD and MLP (DAE) are firstly pretrained on the entire unlabeled training data and then fine-tuned on labeled data. TabTransformer-MLM, TabTransformer-RTD, MLP (DAE) は、まずラベル付きトレーニングデータ全体に対して事前トレーニングを行い、ラベル付きデータに基づいて微調整を行う。
訳抜け防止モード: TabTransformer - MLM, TabTransformer - RTD と MLP (DAE ) は、ラベルなしトレーニングデータ全体の事前トレーニングを行う。 ラベル付きデータにチューニングされる。
0.65
The semi-supervised learning methods, Pseudo Labeling and Entropy Regularization, are trained on the mix of labeled and unlabeled training data. Pseudo Labeling と Entropy Regularization という半教師あり学習手法はラベル付きトレーニングデータとラベルなしトレーニングデータの混合に基づいて訓練される。 0.68
To better present results, we split the set of 15 datasets into two subsets. 結果をよりよく提示するため、15のデータセットのセットを2つのサブセットに分割した。 0.60
The first set includes 6 datasets with more than 30K data points and the second set includes remaining 9 datasets. 第1セットは30K以上のデータポイントを持つ6つのデータセットを含み、第2セットは残りの9つのデータセットを含む。 0.64
The results are presented in Table 3 and Table 4. 結果は表3と表4に示されます。 0.77
When the number of unlabeled data is large, Table 3 shows that our TabTransformer-RTD and TabTransformer-MLM significantly outperform all the other competitors. ラベルなしデータの数が大きければ、TabTransformer-RTDとTabTransformer-MLMは、他の競合他社よりも大幅に優れています。 0.60
Particularly, TabTransformer-RTD/M LM improves over all the other competitors by at least 1.2%, 2.0% and 2.1% on mean AUC for the scenario of 50, 200, and 500 labeled data points respectively. 特に、TabTransformer-RTD/M LMは、50、200、500のラベル付きデータポイントに対して、平均AUCで少なくとも1.2%、2.0%、および2.1%の改善を行っている。 0.61
The Transformer-based semi-supervised learning methods TabTransformer (ER) and TabTransformer (PL) and the tree-based semi-supervised learning method GBDT (PL) perform worse than the average of all the models. The Transformer-based semi-supervised learning method Tab Transformer (ER) and Tab Transformer (PL) and the tree-based semi-supervised learning method GBDT (PL) are worse than the average of all models。 0.88
When the number of unlabeled data becomes smaller, as shown in Table 4, TabTransformer-RTD still outperforms most of its 表4に示すように、ラベルなしのデータ数が小さくなると、tabtransformer-rtdは依然としてそのほとんどを上回る。 0.64
英語(論文から抽出)日本語訳スコア
Table 3: Semi-supervised learning results for 8 datasets each with more than 30K data points, for different number of labeled data points. 表3: ラベル付きデータポイントの数に応じて、それぞれ30K以上のデータポイントを持つ8つのデータセットに対する半教師付き学習結果。 0.70
Evaluation metrics are mean AUC in percentage. 評価基準はAUCの比率である。 0.62
Larger the number, better the result. 数字が大きいほど、結果が良くなる。 0.78
50 # Labeled data 66.6 ± 0.6 TabTransformer-RTD TabTransformer-MLM 66.8 ± 0.6 65.6 ± 0.6 MLP (ER) 65.4 ± 0.6 MLP (PL) 62.7 ± 0.6 TabTransformer (ER) 63.6 ± 0.6 TabTransformer (PL) 65.2 ± 0.5 MLP (DAE) 56.5 ± 0.5 GBDT (PL) 50 #ラベルデータ66.6 ± 0.6 Tab Transformer-RTD Tab Transformer-MLM 66.8 ± 0.6 MLP (ER) 65.4 ± 0.6 MLP (PL) 62.7 ± 0.6 Tab Transformer (ER) 63.6 ± 0.6 Tab Transformer (PL) 65.2 ± 0.5 MLP (DAE) 56.5 ± 0.5 GBDT (PL) 0.78
200 70.9 ± 0.6 71.0 ± 0.6 69.0 ± 0.6 68.8 ± 0.6 67.1 ± 0.6 67.3 ± 0.7 68.5 ± 0.6 63.1 ± 0.6 200 70.9 ± 0.6 71.0 ± 0.6 69.0 ± 0.6 68.8 ± 0.6 67.1 ± 0.6 67.3 ± 0.7 68.5 ± 0.6 63.1 ± 0.6 0.68
500 73.1 ± 0.6 72.9 ± 0.6 71.0 ± 0.6 71.0 ± 0.6 69.3 ± 0.6 69.3 ± 0.6 71.0 ± 0.6 66.5 ± 0.7 500 73.1 ± 0.6 72.9 ± 0.6 71.0 ± 0.6 71.0 ± 0.6 69.3 ± 0.6 69.3 ± 0.6 71.0 ± 0.6 66.5 ± 0.7 0.68
Table 4: Semi-supervised learning results for 12 datasets each with less than 30K data points, for different number of labeled data points. 表4: ラベル付きデータポイントの数によって、それぞれ30K未満のデータポイントを持つ12のデータセットに対する半教師付き学習結果。 0.73
Evaluation metrics are mean AUC in percentage. 評価基準はAUCの比率である。 0.62
Larger the number, better the result. 数字が大きいほど、結果が良くなる。 0.78
50 # Labeled data 78.6 ± 0.6 TabTransformer-RTD TabTransformer-MLM 78.5 ± 0.6 79.4 ± 0.6 MLP (ER) 79.1 ± 0.6 MLP (PL) 77.9 ± 0.6 TabTransformer (ER) 77.8 ± 0.6 TabTransformer (PL) 78.5 ± 0.7 MLP (DAE) 73.4 ± 0.7 GBDT (PL) 50 #ラベル付きデータ 78.6 ± 0.6 Tab Transformer-RTD Tab Transformer-MLM 78.5 ± 0.6 MLP (ER) 79.1 ± 0.6 MLP (PL) 77.9 ± 0.6 Tab Transformer (ER) 77.8 ± 0.6 Tab Transformer (PL) 78.5 ± 0.7 MLP (DAE) 73.4 ± 0.7 GBDT (PL) 0.77
200 81.6 ± 0.5 81.0 ± 0.6 81.1 ± 0.6 81.1 ± 0.6 81.2 ± 0.6 81.0 ± 0.6 80.7 ± 0.6 78.8 ± 0.6 200 81.6 ± 0.5 81.0 ± 0.6 81.1 ± 0.6 81.1 ± 0.6 81.2 ± 0.6 81.0 ± 0.6 80.7 ± 0.6 78.8 ± 0.6 0.68
500 83.4 ± 0.5 82.4 ± 0.5 82.3 ± 0.6 82.0 ± 0.6 82.1 ± 0.6 82.1 ± 0.6 82.2 ± 0.6 81.3 ± 0.6 500 83.4 ± 0.5 82.4 ± 0.5 82.3 ± 0.6 82.0 ± 0.6 82.1 ± 0.6 82.1 ± 0.6 82.2 ± 0.6 81.3 ± 0.6 0.68
competitors but with a marginal improvement. 競争相手ですが 限界的な改善です 0.61
Furthermore, we observe that when the number of unlabeled data is small as shown in Table 4, TabTransformerRTD performs better than TabTransformer-MLM, thanks to its easier pre-training task (a binary classification) than that of MLM (a multi-class classification). さらに,表4に示すようにラベルなしデータの数が小さい場合には,mlm (multi-class classification) よりも事前学習タスク(バイナリ分類)が容易であるため,tabtransformerrtdはtabtransformer-mlmよりも優れた性能を示す。 0.85
This is consistent with the finding of the ELECTRA paper (Clark et al 2020). これはELECTRAの論文(Clark et al 2020)の発見と一致している。 0.66
In Table 4, with only 50 labeled data points, MLP (ER) and MLP (PL) beat our TabTransformer-RTD/M LM. 表4では、ラベル付きデータポイントが50しかなく、MLP(ER)とMLP(PL)がTabTransformer-RTD/M LMを破りました。 0.68
This can be attributed to the fact that there is room for improvement in our fine-tuning procedure. これは我々の微調整手順に改善の余地があるという事実による。 0.67
In particular, our approach allows to obtain informative embeddings but does not allow the weights of the classifier itself to be trained with unlabelled data. 特に,このアプローチでは情報埋め込みが可能だが,分類器自体の重み付けをラベルなしのデータで訓練することはできない。 0.79
Since this issue does not occur for ER and PL, they obtain an advantage in extremely small labelled set. この問題は ER や PL では発生しないので、非常に小さなラベル付き集合では有利である。 0.71
We point out however that this only means that the methods are complementary and mention that a possible follow up could combine the best of all approaches. しかし、これはメソッドが相補的であることを意味しており、すべてのアプローチのベストを組み合わせられる可能性があることを指摘する。 0.67
Both evaluation results, Table 3 and Table 4, show that our TabTransformer-RTD and Transformers-MLM models are promising in extracting useful information from unlabeled data to help supervised training, and are particularly useful when the size of unlabeled data is large. 表3と表4の両評価結果は,我々のTab Transformer-RTDとTransformers-MLMモデルが,教師付きトレーニングを支援するためにラベルなしデータから有用な情報を抽出できることを示し,ラベルなしデータのサイズが大きい場合には特に有用である。 0.75
For model performance on each individual dataset see Table 10, 11, 12, 13, 14, 15 in Appendix C. 各データセットのモデルパフォーマンスについては、Appendix Cのテーブル10、11、12、13、14、15を参照してください。 0.74
4 Related Work Supervised learning. 4 関連作業 指導的学習。 0.75
Standard MLPs have been applied to tabular data for many years (De Br´ebisson et al 2015). 標準MLPは長年にわたって表形式データに適用されてきた(De Br ́ebisson et al 2015)。 0.74
For deep models designed specifically for tabular data, there are deep versions of factorization machines (Guo et al 2018; Xiao et al 2017), Transformers-based methods (Song et al 2019; Li et al 2020; Sun et al 2019), and deep versions of decision-tree-based algorithms (Ke et al 2019; Yang, Morillo, and Hospedales 2018). のために 表データ用に特別に設計された深層モデルには、分解機械の深層バージョン(guo et al 2018; xiao et al 2017)、トランスフォーマーベースの手法(song et al 2019; li et al 2020; sun et al 2019)、決定木ベースのアルゴリズムの深層バージョン(ke et al 2019; yang, morillo, hospedales 2018)がある。 0.64
In particular, (Song et al 2019) applies one layer of multi-head attention on embeddings to learn higher order features. 特に(Song et al 2019)は、より高次の機能を学ぶために、埋め込みに多面的な注意を払っている。 0.63
The higher order features are concatenated and inputted to a fully connected layer to make the final prediction. 高次機能は連結され、完全に接続された層に入力され、最終的な予測が行われる。
訳抜け防止モード: 高次特徴は連結され、完全に連結された層に入力される 最終的な予測を下すためです
0.70
(Li et al 2020) use self-attention layers and track the attention scores to obtain feature importance scores. (Li et al 2020) 自己注意層を用いて注目スコアを追跡して特徴的重要度を求める。 0.80
(Sun et al 2019) combine the Factorization Machine model with transformer mechanism. (sun et al 2019) ファクタライゼーションマシンモデルとトランスフォーマー機構を組み合わせる。 0.59
All 3 papers are focused on recommendation systems making it hard to have a clear comparison with this paper. 3つの論文はいずれもレコメンデーションシステムに焦点を当てており、この論文と明確な比較が難しい。 0.68
Other models have been designed around the purported properties of tabular data such as low-order and sparse feature interactions. その他のモデルは、低次およびスパース特徴の相互作用のような表データの性質を中心に設計されている。 0.65
These include Deep & Cross Networks (Wang et al 2017), Wide & Deep Networks (Cheng et al 2016), TabNets (Arik and Pfister 2019), and AdaNet (Cortes et al 2016). その中には、Deep & Cross Networks (Wang et al 2017), Wide & Deep Networks (Cheng et al 2016), TabNets (Arik and Pfister 2019), AdaNet (Cortes et al 2016)などが含まれる。 0.88
Semi-supervised learning. (Izmailov et al 2019) give a semi-supervised method based on density estimation and evaluate their approach on tabular data. 半教師付き学習。 (izmailov et al 2019)は、密度推定に基づく半教師付き手法を提供し、表データに対するアプローチを評価する。
訳抜け防止モード: 半教師付き学習。 (Izmailov et al 2019 ) 密度推定に基づく半教師付き手法 それらのアプローチを表データで評価する。
0.66
Pseudo labeling (Lee 2013) is a simple, efficient and popular baseline method. Pseudo labeling (Lee 2013) は単純で効率的で一般的なベースライン法である。 0.82
The Pseudo labeling uses the current network to infer pseudo-labels of unlabeled examples, by choosing the most confident class. Pseudoラベリングは、信頼度の高いクラスを選択することで、現在のネットワークを使用してラベルなし例の擬似ラベルを推論する。 0.62
These pseudo-labels are treated like human-provided labels in the cross entropy loss. これらの擬似ラベルは、クロスエントロピー損失において人間の提供するラベルのように扱われる。 0.48
Label propagation (Zhu and Ghahramani 2002), (Iscen et al 2019) is a similar approach where a node’s labels propagate to all nodes according to their proximity, and are used by the training model as if they were the true labels. ラベル伝搬 (Zhu and Ghahramani 2002) (Iscen et al 2019) は、ノードのラベルがすべてのノードに近接して伝播し、トレーニングモデルによって真のラベルであるかのように使用される、同様のアプローチである。 0.70
Another standard method in semi-supervised learning is entropy regularization (Grandvalet and Bengio 2005; Sajjadi, Javanmardi, and Tasdizen 2016). 半教師あり学習のもう一つの標準的な方法はエントロピー正規化(Grandvalet and Bengio 2005; Sajjadi, Javanmardi, Tasdizen 2016)である。 0.70
It adds average per-sample entropy for the unlabeled examples to the original loss function for the labeled examples. ラベルなしの例に対する平均的なサンプル毎エントロピーをラベル付き例の元の損失関数に追加する。 0.73
Another classical approach of semi-supervised learning is co-training (Nigam and Ghani 2000). 半教師付き学習のもう一つの古典的アプローチはコ・トレーニングである(Nigam and Ghani 2000)。 0.56
However, the recent approaches - entropy regularization and pseudo labeling - are typically better and more popular. しかし、最近のアプローチ(エントロピー正規化と擬似ラベリング)は一般的により良く人気がある。 0.70
A succinct review of semi-supervised learning methods in general can be found in (Oliver et al 2019; Chappelle, Sch¨olkopf, and Zien 2010). 半教師付き学習法の一般的な簡潔なレビューは、oliver et al 2019, chappelle, sch solkopf, zien 2010 で見ることができる。 0.65
5 Conclusion We proposed TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. 5 結論 教師付きおよび半教師付き学習のための新しい深層表データモデリングアーキテクチャであるTabTransformerを提案する。 0.67
We provide extensive empirical evidence showing TabTransformer significantly outperforms MLP and recent deep networks for tabular data while matching the performance of tree-based ensemble models (GBDT). 本研究では,TabTransformer がツリーベースアンサンブルモデル (GBDT) の性能に適合しながら,表層データに対して MLP と最近のディープネットワークを著しく上回っていることを示す広範な実証的証拠を提供する。 0.59
We provide and extensively study a two-phase pre-training then fine-tune procedure for tabular data, beating the state-of-theart performance of semi-supervised learning methods. 半教師付き学習法の最先端性能を上回って,表データに対する2相事前学習と微調整の手順を幅広く検討した。 0.62
TabTransformer shows promising results for robustness against noisy and missing data, and interpretability of the contextual embeddings. tabtransformerは、ノイズや欠落データに対する堅牢性、コンテキスト埋め込みの解釈性に有望な結果を示している。 0.60
For future work, it would be interesting to investigate them in detail. 今後の作業については,詳しく調査してみたいと思います。 0.68
英語(論文から抽出)日本語訳スコア
References Alemi, A. A.; Fischer, I.; and Dillon, J. V. 2018. 参考文献 A、A。 A.; Fischer, I.; and Dillon, J. V. 2018 0.72
Uncertainty in the Variational Information Bottleneck. 変動情報ボトルネックの不確実性。 0.56
arXiv:1807.00906 [cs, stat] URL http://arxiv.org/abs /1807.00906. arXiv:1807.00906 [cs, stat] URL http://arxiv.org/abs /1807.00906 0.56
ArXiv: 1807.00906. ArXiv: 1807.00906。 0.79
Alemi, A. A.; Fischer, I.; Dillon, J. V.; and Murphy, K. 2017. A、A。 A.; Fischer, I.; Dillon, J. V.; and Murphy, K. 2017 0.75
Deep Variational Information Bottleneck. 深部変量情報ボトルネック。 0.69
International Conference on Learning Representations abs/1612.00410. 英語) International Conference on Learning Representations abs/1612.00410 0.65
URL https://arxiv.org/ab s/1612.00410. URL https://arxiv.org/ab s/1612.00410。 0.44
Arik, S. O.; and Pfister, T. 2019. Arik, S. O.; and Pfister, T. 2019 0.90
TabNet: Attentive Interpretable Tabular Learning. TabNet: Attentive Interpretable Tabular Learning。 0.80
arXiv preprint arXiv:1908.07442 URL https://arxiv.org/ab s/1908.07442. arXiv preprint arXiv:1908.07442 URL https://arxiv.org/ab s/1908.07442 0.48
Ban, G.-Y. ; El Karoui, N.; and Lim, A. E. 2018. バン、GY。 エル・カルーイ (el karoui, n.)、リム (lim, a. e. 2018)。 0.50
Machine learning and portfolio optimization. 機械学習とポートフォリオ最適化。 0.80
Management Science 64(3): 1136–1154. 経営科学64(3):1136-1154。 0.79
Bradley, A. P. 1997. 1997年、A.P.。 0.53
The use of the area under the ROC curve in the evaluation of machine learning algorithms. 機械学習アルゴリズムの評価におけるROC曲線下の領域の利用 0.68
Pattern recognition 30(7): 1145–1159. パターン認識30(7):1145-1159。 0.78
Brunner, G.; Liu, Y.; Pascual, D.; Richter, O.; and Wattenhofer, R. 2019. Brunner, G.; Liu, Y.; Pascual, D.; Richter, O.; Wattenhofer, R. 2019 0.80
On the validity of self-attention as explanation in transformer models. 変圧器モデルにおける説明としての自己注意の有効性について 0.55
arXiv preprint arXiv:1908.04211 . arXiv preprint arXiv:1908.04211 0.69
Chapelle, O.; Scholkopf, B.; and Zien, A. Chapelle, O., Scholkopf, B., Zien, A. 0.75
2009. Semisupervised learning). 2009. 半監督学習)。 0.71
IEEE Transactions on Neural Networks 20(3): 542–542. IEEE Transactions on Neural Networks 20(3): 542–542。 0.93
Chappelle, O.; Sch¨olkopf, B.; and Zien, A. Chappelle, O.; Sch solkopf, B.; そしてZien, A。 0.85
2010. Semisupervised learning. 2010. 半監督学習。 0.71
Adaptive Computation and Machine Learning. 適応計算と機械学習。 0.68
Chen, T.; and Guestrin, C. 2016. Chen, T.; and Guestrin, C. 2016 0.82
Xgboost: A scalable tree boosting system. Xgboost: スケーラブルなツリーブースティングシステム。 0.73
In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 785–794. 第22回acm sigkdd国際知識発見・データマイニング会議では、785-794。 0.72
Cheng, H.-T.; Koc, L.; Harmsen, J.; Shaked, T.; Chandra, T.; Aradhye, H.; Anderson, G.; Corrado, G.; Chai, W.; Ispir, M.; et al 2016. Cheng, H.-T.; Koc, L.; Harmsen, J.; Shaked, T.; Chandra, T.; Aradhye, H.; Anderson, G.; Corrado, G.; Chai, W.; Ispir, M.; et al 2016
訳抜け防止モード: Cheng, H.-T.; Koc, L.; Harmsen, J. ; Shaked T. ; Chandra, T. ; Aradhye, H. ; Anderson, G. ; Corrado, G. ; Chai, W.; Ispir, M. ; et al 2016
0.96
Wide & deep learning for recommender systems. 推薦システムのための広範かつ深い学習。 0.75
In Proceedings of the 1st workshop on deep learning for recommender systems, 7–10. Proceedings of the 1st Workshop on Deep Learning for recommender system, 7-10。 0.80
Clark, K.; Luong, M.-T.; Le, Q. V.; and Manning, C. D. 2020. Clark, K.; Luong, M.-T.; Le, Q. V.; and Manning, C. D. 2020 0.98
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ELECTRA: テキストエンコーダをジェネレータではなくディスクリミネータとしてトレーニングする。 0.53
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
URL https://openreview.n et/ forum?id=r1xMH1BtvB. URL https://openreview.n et/ forum?id=r1xMH1BtvB 0.55
Coenen, A.; Reif, E.; Yuan, A.; Kim, B.; Pearce, A.; Vi´egas, F.; and Wattenberg, M. 2019. Coenen, A.; Reif, E.; Yuan, A.; Kim, B.; Pearce, A.; Vi ́egas, F.; and Wattenberg, M. 2019 0.90
Visualizing and measuring the geometry of bert. バートの幾何学を可視化し測定する。 0.68
arXiv preprint arXiv:1906.02715 . arXiv preprint arXiv:1906.02715 0.69
Cortes, C.; Gonzalvo, X.; Kuznetsov, V.; Mohri, M.; and Yang, S. 2016. Cortes, C., Gonzalvo, X., Kuznetsov, V., Mohri, M., Yang, S. 2016 0.75
AdaNet: Adaptive Structural Learning of Artificial Neural Networks. AdaNet: ニューラルネットワークの適応的構造学習。 0.72
De Br´ebisson, A.; Simon, E.; Auvolat, A.; Vincent, P.; and Bengio, Y. De Br ́ebisson, A.; Simon, E.; Auvolat, A.; Vincent, P.; and Bengio, Y 0.88
2015. Artificial Neural Networks Applied to Taxi Destination Prediction. 2015. タクシー目的地予測へのニューラルネットワークの適用 0.76
In Proceedings of the 2015th International Conference on ECML PKDD Discovery Challenge - Volume 1526, ECMLPKDDDC’15, 40–51. 2015th International Conference on ECML PKDD Discovery Challenge - Volume 1526, ECMLPKDDDC’15, 40-51 に参加して 0.82
Aachen, DEU: CEUR-WS.org. Aachen, DEU: CEUR-WS.org 0.77
Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2019. Devlin, J.; Chang, M.-W.; Lee, K.; Toutanova, K. 2019 0.87
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. BERT: 言語理解のための双方向変換器の事前学習。 0.66
In NAACL-HLT. NAACL-HLT所属。 0.58
Dua, D.; and Graff, C. 2017. Dua, D., and Graff, C. 2017 0.79
UCI Machine Learning Repository. UCI 機械学習リポジトリ。 0.68
URL http://archive.ics.u ci.edu/ml. URL http://archive.ics.u ci.edu/ml 0.46
Universal language arXiv preprint ユニバーサル Language arXiv プレプリント 0.79
Grandvalet, Y.; and Bengio, Y. Grandvalet, Y; and Bengio, Y。 0.82
2005. Semi-supervised learning by entropy minimization. 2005. エントロピー最小化による半教師付き学習 0.71
In Advances in neural information processing systems, 529–536. In Advances in Neural Information Processing System, 529-536。 0.89
Grandvalet, Y.; and Bengio, Y. Grandvalet, Y; and Bengio, Y。 0.82
2006. Entropy regularization. 2006. エントロピー規則化。 0.74
Semi-supervised learning 151–168. 半教師学習151–168。 0.52
Guo, H.; Tang, R.; Ye, Y.; Li, Z.; He, X.; and Dong, Z. Guo, H.; Tang, R.; Ye, Y.; Li, Z.; He, X.; Dong, Z. 0.81
2018. DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction. 2018. DeepFM: CTR予測のためのエンドツーエンドの広義および深層学習フレームワーク。 0.83
arXiv:1804.04950 [cs, stat] URL http: //arxiv.org/abs/1804 .04950. arXiv:1804.04950 [cs, stat] URL http: //arxiv.org/abs/1804 .04950 0.55
ArXiv: 1804.04950. ArXiv:1804.04950。 0.68
Guyon, I.; Sun-Hosoya, L.; Boull´e, M.; Escalante, H. J.; Escalera, S.; Liu, Z.; Jajetic, D.; Ray, B.; Saeed, M.; Sebag, M.; Statnikov, A.; Tu, W.; and Viegas, E. 2019. Guyon, I.; Sun-Hosoya, L.; Boull ́e, M.; Escalante, H. J.; Escalera, S.; Liu, Z.; Jajetic, D.; Ray, B.; Saeed, M.; Sebag, M.; Statnikov, A.; Tu, W.; Viegas, E. 2019 0.91
AnalIn Auysis of the AutoML Challenge series 2015-2018. toML, Springer series on Challenges in Machine Learning. AnalIn Auysis of the AutoML Challenge series 2015-2018 toML, Springer series on Challenges in Machine Learning 0.86
URL https://www.automl.o rg/wp-content/upload s/2018/ 09/chapter10-challen ge.pdf. URL https://www.automl.o rg/wp-content/upload s/2018/09/chapter10- challenge.pdf 0.28
Howard, J.; and Ruder, S. 2018. model fine-tuning for text classification. Howard, J.; and Ruder, S. 2018. テキスト分類のための微調整のモデル。 0.78
arXiv:1801.06146 . arXiv:1801.06146。 0.46
Huang, Z.; Xu, W.; and Yu, K. 2015. Huang, Z., Xu, W., Yu, K. 2015 0.70
Bidirectional LSTM-CRF models for sequence tagging. シーケンスタギングのための双方向LSTM-CRFモデル 0.73
arXiv preprint arXiv:1508.01991 . arXiv preprint arXiv:1508.0 1991 0.60
Iscen, A.; Tolias, G.; Avrithis, Y.; and Chum, O. Iscen, A., Tolias, G., Avrithis, Y., Chum, O。 0.70
2019. Label propagation for deep semi-supervised learning. 2019. 深い半教師付き学習のためのラベル伝播 0.71
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5070–5079. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5070–5079。 0.91
Izmailov, P.; Kirichenko, P.; Finzi, M.; and Wilson, A. G. 2019. Izmailov, P.; Kirichenko, P.; Finzi, M.; Wilson, A. G. 2019 0.83
Semi-Supervised Learning with Normalizing Flows. 正規化フローを用いた半教師付き学習 0.53
arXiv:1912.13025 [cs, stat] URL http://arxiv.org/abs /1912. arXiv:1912.13025 [cs, stat] URL http://arxiv.org/abs /1912 0.61
13025. ArXiv: 1912.13025. 13025. axiv: 1912年。13025年。 0.66
Jahrer, M. 2018. 2018年、M.M.。 0.62
Porto Seguro’s Safe Driver Prediction. Porto Seguroのセーフドライバー予測。 0.67
URL https://kaggle.com/c /porto-seguro-safe-d river-prediction. URL https://kaggle.com/c /porto-seguro-safe-d river-prediction 0.33
Introduction to Pseudo-Labelling Jain, S. 2017. : A Semi-Supervised https: //www.analyticsvidhy a.com/blog/2017/09/p seudo-labellingsemi- supervised-learning- technique/. Pseudo-Labelling Jain, S. 2017 : A Semi-Supervised https: //www.analyticsvidhy a.com/blog/2017/09/p seudo-labellingsemi- supervised-learning- technique/ 0.41
Kaggle, Inc. 2017. Kaggle, Inc. 2017 0.79
The State of ML and Data Science 2017. MLとデータサイエンスの現状2017年。 0.69
URL https://www.kaggle.c om/surveys/2017. URL https://www.kaggle.c om/surveys/2017 0.46
Ke, G.; Meng, Q.; Finley, T.; Wang, T.; Chen, W.; LightGBM: A Ma, W.; Ye, Q.; and Liu, T.-Y. Ke, G.; Meng, Q.; Finley, T.; Wang, T.; Chen, W.; LightGBM: A Ma, W.; Ye, Q.; Liu, T.-Y 0.84
2017. In Adhighly efficient gradient boosting decision tree. 2017. Adhighly efficient gradient boosting decision tree において。 0.87
vances in Neural Information Processing Systems, 3146– 3154. Neural Information Processing Systems, 3146–3154。 0.69
URL https://papers.nips. cc/paper/6907-lightg bm-ahighly-efficient-gradient-boost ing-decision-tree.pd f. URL https://papers.nips. cc/paper/6907-lightg bm-ahighly- efficient-gradient-b oosting-decision-tre e.pdf 0.22
Ke, G.; Zhang, J.; Xu, Z.; Bian, J.; and Liu, T.-Y. Ke, G., Zhang, J., Xu, Z., Bian, J., Liu, T.-Y 0.78
2019. TabNN: A Universal Neural Network Solution for Tabular Data. 2019. tabnn: 表データのためのユニバーサルニューラルネットワークソリューション。 0.80
URL https://openreview.n et/forum?id=r1eJssCqY7. URL https://openreview.n et/forum?id=r1eJssCqY7。 0.48
Kendall, A.; and Gal, Y. Kendall, A., and Gal, Y。 0.82
2017. What uncertainties do we need in bayesian deep learning for computer vision? 2017. ベイズ深層学習でコンピュータビジョンにどのような不確実性が必要か? 0.80
In Advances in neural information processing systems, 5574–5584. In Advances in Neural Information Processing System, 5574–5584。 0.91
Klambauer, G.; Unterthiner, T.; Mayr, A.; and Hochreiter, S. 2017. Klambauer, G.; Unterthiner, T.; Mayr, A.; and Hochreiter, S. 2017 0.83
Self-normalizing neural networks. 自己正規化ニューラルネットワーク。 0.64
In Advances in neural information processing systems, 971–980. In Advances in Neural Information Processing System, 971–980。 0.89
Lee, D.-H. 2013. 2013年、d.-h.。 0.52
Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. Pseudo-label: ディープニューラルネットワークのためのシンプルで効率的な半教師付き学習手法。 0.65
In Workshop on challenges in representation learning, ICML, volume 3, 2. icml, volume 3, 2 における表現学習の課題に関するワークショップ 0.67
learning technique. 学習 テクニック。 0.68
英語(論文から抽出)日本語訳スコア
Song, W.; Shi, C.; Xiao, Z.; Duan, Z.; Xu, Y.; Zhang, M.; and Tang, J. Song, W.; Shi, C.; Xiao, Z.; Duan, Z.; Xu, Y.; Zhang, M.; Tang, J.
訳抜け防止モード: Song, W. ; Shi, C. ; Xiao, Z. ; Duan, Z. ; Xu, Y.; Zhang, M. と唐はJ。
0.92
2019. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks. 2019. AutoInt: 自己認識型ニューラルネットワークによる機能インタラクション学習。 0.84
Proceedings of the 28th ACM International Conference on Information and Knowledge Management - CIKM ’19 1161–1170. 第28回 ACM International Conference on Information and Knowledge Management - CIKM'19 1161-1170 に参加して 0.86
doi: 10.1145/3357384.3357 925. doi 10.1145/3357384.3357 925 0.57
URL http://arxiv.org/abs /1810. URL http://arxiv.org/abs /1810。 0.49
11921. ArXiv: 1810.11921. 11921. ArXiv:1810.11921。 0.78
Stretcu, O.; Viswanathan, K.; Movshovitz-Attias, D.; Platanios, E.; Ravi, S.; and Tomkins, A. Stretcu, O.; Viswanathan, K.; Movshovitz-Attias, D.; Platanios, E.; Ravi, S.; Tomkins, A。 0.85
2019. Graph Agreement Models for Semi-Supervised Learning. 2019. 半教師付き学習のためのグラフ合意モデル 0.74
In Advances in Neural Information Processing Systems 32, 8713–8723. ニューラル情報処理システム32, 8713-8723の進歩 0.63
Curran Associates, Inc. URL http://papers.nips.c c/paper/9076graph-ag reement-models-for-s emi-supervised-learn ing.pdf. Curran Associates, Inc. URL http://papers.nips.c c/paper/9076graph-ag reement-models-for-s emi-supervised-learn ing.pdf 0.33
Sun, Q.; Cheng, Z.; Fu, Y.; Wang, W.; Jiang, Y.-G.; and Xue, X. Sun, Q., Cheng, Z.; Fu, Y.; Wang, W.; Jiang, Y.-G.; Xue, X. 0.87
2019. DeepEnFM: Deep neural networks with Encoder enhanced Factorization Machine URL https://openreview.n et/ forum?id=SJlyta4YPS. 2019. DeepEnFM: Encoderを使用したディープニューラルネットワーク。Facterization Machine URL https://openreview.n et/ forum?id=SJlyta4YPS。 0.71
Tanha, J.; Someren, M.; and Afsarmanesh, H. 2017. Tanha, J.; Someren, M.; and Afsarmanesh, H. 2017 0.80
Semisupervised self-training for decision tree classifiers. 決定木分類器の半教師付き自己学習 0.57
International Journal of Machine Learning and Cybernetics 8: 355– 370. International Journal of Machine Learning and Cybernetics 8: 355–370(英語) 0.83
Education level and Torpey, E.; and Watson, A. 教育レベルとTorpey, E., Watson, A。 0.70
2014. jobs: Opportunities by state. 2014年 - 国定採用。 0.47
URL https://www.bls.gov/ careeroutlook/2014/a rticle/education-lev el-and-jobs.htm. URL https://www.bls.gov/ careeroutlook/2014/a rticle/education-lev el-and-jobs.htm 0.30
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł.; and Polosukhin, I. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, .; Polosukhin, I
訳抜け防止モード: Vaswani, A. ; Shazeer, N. ; Parmar, N. ; Uszkoreit, J. ; Jones, L. ; Gomez, A. N. ; Kaiser, . とPoosukhin, I。
0.94
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In Advances in neural information processing systems, 5998–6008. In Advances in Neural Information Processing System, 5998–6008。 0.90
Voulodimos, A.; Doulamis, N.; Doulamis, A.; and Protopapadakis, E. 2018. Voulodimos, A.; Doulamis, N.; Doulamis, A.; Protopapadakis, E. 2018 0.76
Deep learning for computer vision: A brief review. deep learning for computer vision: a brief review (英語) 0.83
Computational intelligence and neuroscience 2018. 計算知能と神経科学2018年。 0.58
Wang, R.; Fu, B.; Fu, G.; and Wang, M. 2017. Wang, R.; Fu, B.; Fu, G.; and Wang, M. 2017 0.83
Deep & Cross Network for Ad Click Predictions. 広告クリック予測のためのディープ&クロスネットワーク。 0.74
In ADKDD@KDD. ADKDD@KDD。 0.58
Xiao, J.; Ye, H.; He, X.; Zhang, H.; Wu, F.; and Chua, T.-S. 2017. Xiao, J.; Ye, H.; He, X.; Zhang, H.; Wu, F.; Chua, T.-S. 2017 0.85
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention NetIn Proceedings of the Twenty-Sixth International works. 注意因子化機械:第26回国際作品の注意網による特徴的相互作用の重みの学習。 0.81
Joint Conference on Artificial Intelligence, 3119–3125. 人工知能国際会議3119-3125頁。 0.55
Melbourne, Australia: International Joint Conferences on Artificial Intelligence Organization. メルボルン(Melbourne)は、オーストラリアのメルボルンにある国際人工知能会議。 0.59
ISBN 978-0-9992411-03. doi:10.24963/ijcai.2 017/435. ISBN 978-0-9992411-03. doi:10.24963/ijcai.2 017/435 0.28
URL https://www.ijcai.or g/ proceedings/2017/435 . URL https://www.ijcai.or g/ procedure/2017/435 0.46
Yang, Y.; Morillo, I. G.; and Hospedales, T. M. 2018. Yang, Y.; Morillo, I. G.; and Hospedales, T. M. 2018 0.92
Deep neural decision trees. ディープニューラルネットワーク決定木。 0.60
arXiv preprint arXiv:1806.06988 . arXiv preprint arXiv:1806.06988 0.69
Zhu, X.; and Ghahramani, Z. Zhu, X; and Ghahramani, Z 0.72
2002. Learning from labeled and unlabeled data with label propagation . 2002. ラベル付きおよび未ラベル付きデータから学習する。 0.79
Li, Z.; Cheng, W.; Chen, Y.; Chen, H.; and Wang, W. 2020. Li、Z、Cheng、W.、Chen、Y.、Chen、H.、W.2020。 0.68
Interpretable Click-Through Rate Prediction through HierIn Proceedings of the 13th Internaarchical Attention. HierInによる第13階層間注意の解釈可能なクリックスルー速度予測 0.73
tional Conference on Web Search and Data Mining, 313– 321. web 検索とデータマイニングに関する tional conference, 313–321 を参照。 0.75
Houston TX USA: ACM. Houston TX USA: ACM。 0.82
ISBN 978-1-4503-6822-3. doi:10.1145/3336191. 3371785. ISBN 978-1-4503-6822-3. doi:10.1145/3336191. 3371785 0.27
URL http://dl.acm.org/do i/ 10.1145/3336191.3371 785. URL http://dl.acm.org/do i/ 10.1145/3336191.3371 785 0.39
Loshchilov, I.; and Hutter, F. 2017. Loshchilov, I.; and Hutter, F. 2017 0.80
Decoupled Weight Decay Regularization. decoupled weight decay regularization の略。 0.68
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
URL https://arxiv.org/ab s/1711.05101. URL https://arxiv.org/ab s/1711.05101。 0.44
Maaten, L. v. d.; and Hinton, G. 2008. Maaten, L. v. d.; and Hinton, G. 2008 0.96
Visualizing data using t-SNE. t-sneによるデータの可視化 0.49
Journal of machine learning research 9(Nov): 2579– 2605. journal of machine learning research 9 (nov): 2579–2605。 0.84
Mikolov, T.; Kombrink, S.; Burget, L.; ˇCernock`y, J.; and Khudanpur, S. 2011. Mikolov, T.; Kombrink, S.; Burget, L.; Cernock`y, J.; Khudanpur, S. 2011 0.78
Extensions of recurrent neural netIn 2011 IEEE international conferwork language model. recurrent neural netin 2011 ieee international conferwork language modelの拡張。 0.72
ence on acoustics, speech and signal processing (ICASSP), 5528–5531. 音響・音声・信号処理分野(icassp)5528-5531。 0.60
IEEE. Morcos, A. S.; Yu, H.; Paganini, M.; and Tian, Y. IEEE。 Morcos, A. S., Yu, H., Paganini, M., Tian, Y。 0.82
2019. One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers. 2019. それらすべてに勝つためのチケットは、データセットとオプティマイザをまたいだ抽選チケット初期化の一般化である。 0.63
arXiv:1906.02773 [cs, stat] URL http://arxiv.org/abs /1906.02773. arXiv:1906.02773 [cs, stat] URL http://arxiv.org/abs /1906.02773 0.56
ArXiv: 1906.02773. ArXiv: 1906.02773。 0.81
Nigam, K.; and Ghani, R. 2000. ニガム、K.、Ghani、R.2000。 0.68
Analyzing the effectiveness and applicability of co-training. 協調学習の有効性と適用性の分析 0.71
In Proceedings of the ninth international conference on Information and knowledge management, 86–93. 第9回情報・知識管理国際会議の議事録86-93。 0.66
Oliver, A.; Odena, A.; Raffel, C.; Cubuk, E. D.; and Goodfellow, I. J. Oliver, A., Odena, A., Raffel, C., Cubuk, E. D., Goodfellow, I. J. 0.84
2019. Realistic Evaluation of Deep Semi-Supervised Learning Algorithms. 2019. 深層半教師付き学習アルゴリズムの現実的評価 0.80
arXiv:1804.09170 [cs, stat] URL http: //arxiv.org/abs/1804 .09170. arXiv:1804.09170 [cs, stat] URL http: //arxiv.org/abs/1804 .09170 0.55
ArXiv: 1804.09170. ArXiv:1804.09170。 0.69
Oliver, A.; Odena, A.; Raffel, C. A.; Cubuk, E. D.; and Goodfellow, I. Oliver, A., Odena, A., Raffel, C. A., Cubuk, E. D., Goodfellow, I。 0.83
2018. Realistic evaluation of deep semi-supervised learning algorithms. 2018. 深層半教師付き学習アルゴリズムの現実的評価 0.81
In Advances in Neural Information Processing Systems, 3235–3246. ニューラル情報処理システムの進歩, 3235–3246。 0.76
Paszke, A.; Gross, S.; Massa, F.; Lerer, A.; Bradbury, J.; Chanan, G.; Killeen, T.; Lin, Z.; Gimelshein, N.; Antiga, L.; Desmaison, A.; Kopf, A.; Yang, E.; DeVito, Z.; Raison, M.; Tejani, A.; Chilamkurthy, S.; Steiner, B.; Fang, L.; Bai, J.; and Chintala, S. 2019. Paszke, A.; Gross, S.; Massa, F.; Lerer, A.; Bradbury, J.; Chanan, G.; Killeen, T.; Lin, Z.; Gimelshein, N.; Antiga, L.; Desmaison, A.; Kopf, A.; Yang, E.; DeVito, Z.; Raison, M.; Tejani, A.; Chilamkurthy, S.; Steiner, B.; Fang, L.; Bai, J.; Chintala, S. 2019 0.84
PyTorch: An Imperative Style, High-Performance Deep Learning Library. PyTorch: 命令型スタイル,高性能なディープラーニングライブラリ。 0.74
In Wallach, H.; Larochelle, H.; Beygelzimer, A.; d’Alch´e Buc, F.; Fox, E.; and Garnett, R., eds., Advances in Neural Information Processing Systems 32, 8024–8035. Wallach, H.; Larochelle, H.; Beygelzimer, A.; d’Alch ́e Buc, F.; Fox, E.; and Garnett, R., eds., Advances in Neural Information Processing Systems 32, 8024–8035 0.87
Curran Associates, Inc. URL http://papers.neurip s.cc/paper/9015-pyto rch-an-imperativesty le-high-performance- deep-learning-librar y.pdf. Curran Associates, Inc. URL http://papers.neurip s.cc/paper/9015-pyto rch-an-imperativesty le-high- Performance-deep-lea rning-library.pdf 0.29
Prokhorenkova, L.; Gusev, G.; Vorobev, A.; Dorogush, A. V.; and Gulin, A. Prokhorenkova, L.; Gusev, G.; Vorobev, A.; Dorogush, A. V.; Gulin, A. 0.83
2018. CatBoost: unbiased boosting with categorical features. 2018. catboost: カテゴリー的な特徴を持った偏りのないブースティング。 0.69
In Advances in neural information processing systems, 6638–6648. In Advances in Neural Information Processing System, 6638–6648。 0.90
Rong, X. 2014. word2vec parameter learning explained. Rong, X。 2014年、Word2vecパラメータ学習について説明。 0.64
arXiv preprint arXiv:1411.2738 . arXiv preprint arXiv:1411.2738 0.70
Sajjadi, M.; Javanmardi, M.; and Tasdizen, T. 2016. Sajjadi, M.; Javanmardi, M.; Tasdizen, T. 2016 0.74
Regularization with stochastic transformations and perturbations for deep semi-supervised learning. 半教師あり深層学習のための確率変換と摂動による正規化 0.56
In Advances in neural information processing systems, 1163–1171. In Advances in Neural Information Processing System, 1163–1171。 0.90
Sandler, M.; Howard, A.; Zhu, M.; Zhmoginov, A.; and Chen, L.-C. 2018. Sandler, M.; Howard, A.; Zhu, M.; Zhmoginov, A.; Chen, L.-C. 2018 0.86
Mobilenetv2: Inverted residuals and linear bottlenecks. Mobilenetv2: 反転残差と線形ボトルネック。 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, 4510–4520. Proceedings of the IEEE conference on computer vision and pattern recognition, 4510–4520。 0.84
英語(論文から抽出)日本語訳スコア
A Appendix: Ablation Studies A Appendix: アブレーション研究 0.90
We perform a number of ablation studies on various architectural choices and pre-training approaches for our TabTransformer. tabtransformerでは,様々なアーキテクチャ選択と事前学習アプローチについて,数多くのアブレーション研究を行っている。 0.58
The first ablation study is on the choice of column embedding. 最初のアブレーション研究は、カラム埋め込みの選択である。 0.77
The second and third ablation studies focus on the pre-training approach. 第2および第3のアブレーション研究は、事前訓練アプローチに焦点を当てている。 0.57
Specifically, they are on the replacement value k and dynamic versus static replacement strategy. 特に、それらは置換値kであり、動的と静的の置換戦略である。 0.67
For the pre-training approach, we use TabTransformer-RTD as our model. 事前トレーニングのアプローチでは、モデルとしてTabTransformer-RTDを使用します。 0.56
That is, the loss in the pre-training is RTD loss. つまり、事前トレーニングの損失はRTD損失である。 0.67
For TabTransformer, the hidden (embedding) dimension, the number of layers and the number of attention heads in the Transformer are set to 32, 6, and 8 respectively. タブトランスフォーマの場合、それぞれ、隠れ(埋め込み)寸法、層数、トランス中の注意ヘッド数を32,6,8に設定する。
訳抜け防止モード: TabTransformerの場合、隠された(埋め込み)次元、レイヤ数 そして、トランスフォーマーのアテンションヘッドの数は、それぞれ32、6、8に設定されている。
0.66
The MLP layer sizes are set to {4 × l, 2 × l}, where l is the size of its input. mlp層のサイズは {4 × l, 2 × l} に設定され、ここで l はその入力の大きさである。 0.85
To better present the result, we introduce an additional evaluation metric, the relative AUC. 結果をよりよく示すために,評価基準として相対的AUCを導入する。 0.66
More precisely, for each dataset and cross-validation split, the relative AUC for a model is the relative change of its AUC against the mean AUC over all competing models. より正確には、データセットとクロスバリデーションの分割ごとに、モデルの相対的なAUCは、競合するすべてのモデルに対する平均AUCに対するAUCの相対的な変化である。 0.65
Column Embedding. The first study is on the choice of column embedding – shared parameters cφi across the embeddings of multiple classes in column i for i ∈ {1, 2, ..., m}. カラム埋め込み。 最初の研究は列埋め込みの選択であり、i ∈ {1, 2, ..., m} に対して列 i の複数のクラスへの埋め込みの共有パラメータ cφi である。 0.64
In particular, we study the optimal dimension of cφi, (cid:96). 特に, cφi の最適次元 (cid:96) について検討する。 0.80
An alternative choice is to element-wisely add the unique identifier cφi and feature-value specific embeddings wφij rather than concatenating them. もう一つの選択肢は、一意の識別子 cφi と特徴値固有の埋め込み wφij を要素的に加えることである。 0.59
In that case, both the dimension of cφi and wφij are equal to the dimension of embedding d. The goal of having column embedding is to enable the model to distinguish the classes in one column from those in the other columns. この場合、cφi と wφij の次元はともに埋め込み d の次元に等しい。
訳抜け防止モード: この場合、cφi と wφij の次元はともに埋め込み d の次元に等しい。 モデルが一つの列のクラスと他の列のクラスを区別できるようにする。
0.64
A baseline approach is to not have any shared embedding. ベースラインのアプローチは、共有の埋め込みがないことである。 0.74
Results are presented in Table 5 where “Col Embed-Concat-1/X” indicates that the dimension (cid:96) is set as d/X. 結果が表5に示され、“Col Embed-Concat-1/X”は寸法(cid:96)をd/Xとすることを示す。 0.66
The relative AUC score is calculated over all the models that appear in the rows and columns in the table, which explains why negative scores appear in some of the entries. 相対的なAUCスコアは、テーブルの行と列に現れるすべてのモデルで計算される。
訳抜け防止モード: 相対的なAUCスコアは、すべてのモデルで計算される テーブルの列と列に現れます 否定的なスコアが ある項目に現れる理由を説明します
0.71
Results show that not having the shared column embedding performs worst and our concatenation column embedding gives an average better performance. その結果,共有カラムの埋め込みが動作しない方が最悪であり,結合カラムの埋め込みの方が平均的なパフォーマンスが向上することがわかった。 0.59
The replacement value k. The second ablation study is on the replacement value k in pre-training approach. 第2のアブレーション研究は、プレトレーニングアプローチにおける置換値kに関するものである。 0.57
We run experiments for three different choices of k – {15, 30, 50} on three different datasets, namely – Adult, BankMarketing, and 1995 income. 3つの異なるデータセット — 成人、銀行のマーケティング、1995年の収入 – で、3つの異なるk – {15,30,50} を実験します。 0.79
The TabTransformer is firstly pre-trained with a value of k on unlabeled data and then fine-tuned on labeled data. TabTransformerは、ラベルなしデータ上でkの値で事前訓練され、ラベル付きデータで微調整される。 0.68
The number of labeled data is set as 256. ラベル付きデータの数は256とする。 0.68
The final fine-tuning accuracy is not much sensitive to the value of k, as shown in Table 6. 最終的な微調整精度は、表6に示すように、kの値にあまり敏感ではない。 0.72
The pre-training curves of training and validation accuracy for the three different replacement value k is shown in Figure 6. 図6に、3つの異なる置換値kのトレーニングおよび検証精度の事前訓練曲線を示す。 0.79
Note, that a constant prediction model would achieve 85% accuracy for the 15% replacement value. 一定の予測モデルでは、15%の置き換え値に対して85%の精度が得られる。 0.80
Dynamic versus Static Replacement. 動的と静的に置き換える。 0.74
The third ablation study is on dynamic vs static replacement in the pre-training approach. 第3のアブレーション研究は、事前学習アプローチにおける動的/静的置換に関するものである。 0.59
In dynamic replacement, we randomly replace feature values during pre-training over the epochs. ダイナミックリプレースでは、エポックの事前トレーニング中にランダムに特徴値を置き換える。 0.60
That is the replacement is different in each epoch. つまり,それぞれの時代において置き換えが違うのです。 0.61
Whereas in static replacement, the random replacement is chosen once, and then the same replacement is used in all the epochs. 静的な置換では、ランダムな置換が1回選択され、すべてのエポックで同じ置換が使用される。 0.65
We combine this study with another ablation on shared RTD binary classifier (predictor) vs. different classifiers for different columns. 私たち この研究と共有rtdバイナリ分類器(predictor)の別のアブレーションを組み合わせることで、異なる列の異なる分類器を比較できる。 0.63
Results in Table 7 show that our choice of dynamic replacement and un-shared RTD classifiers perform better than static replacement and shared RTD classifiers. 表7の結果は、動的置換と非共有rtd分類器の選択が静的置換と共有rtd分類器よりも優れていることを示している。 0.64
Figure 7 shows the pre-training curves of training and validation accuracy for the three choices – dynamic replacement, static replacement, and static replacement with a shared RTD classifier. 図7は、動的置換、静的置換、および共有RTD分類器による静的置換という、3つの選択肢のトレーニング曲線と検証精度を示しています。 0.75
B Appendix: Experiment and Model Details In this section, we discuss the experiments and model details. B Appendix: 実験とモデルの詳細 この節では実験とモデルの詳細について説明します。 0.85
First, we go through the experiments details and hyper parameters search space for HPO in Section B.1. まず、実験の詳細と、B.1節におけるHPOのハイパーパラメータ探索空間について述べる。 0.74
Next, we discuss the feature engineering in Section B.2. 次に,B.2節の機能工学について論じる。 0.64
B.1 Experiments Details and Hyper Parameters Setup. b.1 実験の詳細とハイパーパラメータの設定。 0.72
All experiments were run on an Ubuntu Linux machine with 8 CPUs and 60GB memory, with all models using a single NVIDIA V100 Tensor Core GPU. すべての実験は8cpuと60gbのメモリを持つubuntu linuxマシン上で行われ、すべてのモデルはnvidia v100 tensor core gpuを使用する。 0.81
For the competing models mentioned in the experiment, we reimplemented all of them for consistency of pre-processing. 実験で言及された競合モデルに対しては、前処理の一貫性のためにこれらすべてを再実装した。 0.55
In cases where there exist published results for a model, our tested results are close to the published records. モデルが公開された結果が存在する場合、テスト結果が公表された記録に近くなる。 0.74
The GBDT model is implemented using the LightGBM library (Ke et al 2017). GBDTモデルはLightGBMライブラリを使って実装されている(Ke et al 2017)。 0.86
All the other models are implemented using the PyTorch library (Paszke et al 2019). 他のモデルはすべてPyTorchライブラリを使って実装されている(Paszkeら、2019年)。 0.75
To reproduce our experiment results, the models’ implementations and the exact values for all hyper-parameters can be found in another supplemental material, Code and Data Appendix. 実験結果を再現するために、モデルの実装とすべてのハイパーパラメータの正確な値は、別の補足材料であるCode and Data Appendixで見ることができる。 0.75
For each dataset, all of the cross-validation splits, labeled, and unlabeled training data are obtained with a fixed random seed such that every model tested receives exactly the same training and testing conditions. 各データセットに対して、すべてのクロスバリデーション分割、ラベル付き、ラベルなしのトレーニングデータは、テストされたモデルが正確に同じトレーニングおよびテスト条件を受けるように、固定されたランダムシードで取得される。 0.63
As all the datasets are for binary classification, 全体として データセットはバイナリ分類用です 0.58
the cross entropy loss was used for both supervised and semisupervised training (for pre-training, the problem is binary classification in RTD and multi-class classification in MLM). クロスエントロピー損失は、教師付きトレーニングと半教師付きトレーニングの両方に使用された(事前トレーニングでは、RTDのバイナリ分類とMLMのマルチクラス分類)。
訳抜け防止モード: クロスエントロピー損失(cross entropy loss)は、監督訓練と半監督訓練の両方に使用された。 問題はrtdのバイナリ分類とmlmのマルチクラス分類である。
0.65
For all deep models, the AdamW optimizer (Loshchilov and Hutter 2017) was used to update the model parameters, and a constant learning rate was applied throughout each training job. すべての深層モデルでは、モデルパラメータを更新するためにadamwオプティマイザ(loshchilovとhutter 2017)が使用され、トレーニングジョブ毎に一定の学習レートが適用された。 0.73
All models used early stopping based on the performance on the validation set and the early stopping patience (the number of epochs) is set as 15. 検証セットのパフォーマンスに基づく早期停止と早期停止忍耐(エポック数)に基づいて、すべてのモデルが15に設定されている。 0.79
Hyper-parameters Search Space. ハイパーパラメータ探索空間。 0.77
The hyper-parameters tuned for the GBDT model were the number of leaves in the trees with a search space {x ∈ Z|5 ≤ x ≤ 50}, the minimum number of datapoints required to split a leaf in the trees with a search space {x ∈ Z|1 ≤ x ≤ 100}, the boosting learning rate with a search space {x = 5· 10u, u ∈ U|− 3 ≤ x ≤ −1}, and the number of trees used for boosting with a search space {x ∈ Z|10 ≤ x ≤ 1000}. gbdtモデル用に調整された超パラメータは、探索空間 {x ∈ z|5 ≤ x ≤ 50} を持つ木の中の葉の数、探索空間 {x ∈ z|1 ≤ x ≤ 100} で木の葉を分割するのに必要となる最小のデータポイント数、探索空間 {x = 5·10u, u ∈ u|− 3 ≤ x ≤ −1} によるブースティング学習率、探索空間 {x ∈ z|10 ≤ x ≤ 1000} でブースティングに使用される木の数であった。 0.85
For all of the deep models, the common hyper-parameters include the weight decay factor with a search space {x = 10u, u ∈ U| − 6 ≤ u ≤ −1}, the learning rate with a search space {x = 10u, u ∈ U|−6 ≤ u ≤ −3}, the dropout probability with a search space {0, 0.1, 0.2, ...0.5}, and whether to すべての深層モデルに対して、一般的な超パラメータは、探索空間 {x = 10u, u ∈ U| − 6 ≤ u ≤ −1} の重み減衰係数、探索空間 {x = 10u, u ∈ U| −6 ≤ u ≤ −3} の学習率、探索空間 {0, 0.1, 0.2, ...0.5} のドロップアウト確率を含む。 0.89
英語(論文から抽出)日本語訳スコア
Table 5: Performance of TabTransformer with no column embedding, concatenation column embedding, and addition column embedding. 表5: カラム埋め込み、連結カラム埋め込み、追加カラム埋め込みのないtabtransformerの性能。
訳抜け防止モード: 表5 : カラム埋め込みや連結カラム埋め込みのないtabtransformerの性能 カラムの埋め込みを追加します。
0.76
The evaluation metric is mean ± standard deviation of relative AUCs (in percentage) over all 15 datasets. 評価基準は、15のデータセット全体の相対的なaucs(パーセンテージ)の±標準偏差である。 0.75
Larger value means better performance. 値が大きいとパフォーマンスが向上します。 0.59
The best model is bold for each row. 最良のモデルは各行に対して大胆です。 0.78
# of Transformers Layers No Col Embed Col Embed-Concat-1/4 Col Embed-Concat-1/8 Col Embed-Add -1.11 ± 0.77 0.34 ± 0.27 0.21 ± 0.23 0.25 ± 0.23 0.42 ± 0.39 # of Transformers Layers No Col Embed Col Embed-Concat-1/4 Col Embed-Concat-1/8 Col Embed-Add -1.11 ± 0.77 0.34 ± 0.27 0.21 ± 0.23 0.25 ± 0.23 0.42 ± 0.39 0.53
-0.59 ± 0.33 -0.59 ± 0.22 -0.37 ± 0.19 0.54 ± 0.22 0.66 ± 0.21 -0.59 ± 0.33 -0.59 ± 0.22 -0.37 ± 0.19 0.54 ± 0.22 0.66 ± 0.21 0.48
1 2 3 6 12 1 2 3 6 12 0.85
-2.01 ± 1.33 -0.37 ± 0.20 0.04 ± 0.18 0.53 ± 0.24 1.05 ± 0.31 -2.01 ± 1.33 -0.37 ± 0.20 0.04 ± 0.18 0.53 ± 0.24 1.05 ± 0.31 0.50
-0.27 ± 0.21 -0.14 ± 0.19 -0.02 ± 0.21 0.70 ± 0.17 0.73 ± 0.58 -0.27 ± 0.21 -0.14 ± 0.19 -0.02 ± 0.21 0.70 ± 0.17 0.73 ± 0.58 0.48
Table 6: Fine-tuning performance of TabTransformer-RTD for different pre-training replacement value k. The number of labeled data points is 256. 表6: 異なるトレーニング済み置換値kに対するTabTransformer-RTDの微調整性能。 0.47
The evaluation metrics are mean ± standard deviation of (1) AUC score over 5 cross-validation splits for each dataset (in percentage); (2) relative AUCs over the 3 datasets (in percentage). 評価基準は,(1)各データセットの5倍のAUCスコア(パーセンテージ),(2)3つのデータセット(パーセンテージ)に対する相対的なAUCスコア(パーセンテージ)の平均±標準偏差である。 0.76
Larger value means better performance. 値が大きいとパフォーマンスが向上します。 0.59
The best model is bold for each column. 最高のモデルは各列に対して大胆です。 0.77
Replacement value k% 15 30 50 置換値k% 15 30 50 0.78
58.1 ± 3.52 58.1 ± 3.15 57.9 ± 3.21 58.1 ± 3.52 58.1 ± 3.15 57.9 ± 3.21 0.53
Adult BankMarketing 85.9 ± 1.62 86.1 ± 1.58 85.7 ± 1.93 Adult BankMarketing 85.9 ± 1.62 86.1 ± 1.58 85.7 ± 1.93 0.59
1995 income 86.8 ± 1.35 86.7 ± 1.41 86.7 ± 1.38 1995 income 86.8 ± 1.35 86.7 ± 1.41 86.7 ± 1.38 0.59
relative AUC (%) 0.02 ± 0.10 0.08 ± 0.10 -0.10 ± 0.11 relative AUC (%) 0.02 ± 0.10 0.08 ± 0.10 -0.10 ± 0.11 0.63
Table 7: Fine-tuning performance of TabTransformer-RTD for dynamic replacement, static replacement, and static replacement with a shared classifier. テーブル7: 動的置換、静的置換、共有分類器による静的置換のためのTabTransformer-RTDの微調整性能。 0.81
The number of labeled data points is 256. ラベル付きデータポイントの数は256である。 0.83
The evaluation metrics are mean ± standard deviation of (1) AUC score over 5 cross-validation splits for each dataset (in percentage) ; (2) relative AUCs over the 3 datasets (in percentage). 評価基準は,(1)AUCスコアが各データセットの5倍(パーセンテージ),(2)AUCスコアが3つのデータセット(パーセンテージ)に対する5倍(パーセンテージ)である平均±標準偏差である。 0.76
Larger value means better performance. 値が大きいとパフォーマンスが向上します。 0.59
The best model is bold for each column. 最高のモデルは各列に対して大胆です。 0.77
Dynamic Replacement (Un-shared RTD classifiers) Static Replacement (Un-shared RTD classifiers) Static Replacement (Shared RTD Classifiers) 動的置換(Un-shared RTD分類器) 静的置換(Un-shared RTD分類器) 静的置換(Shared RTD分類器) 0.73
58.1 ± 3.52 57.9 ± 2.93 57.5 ± 2.74 58.1 ± 3.52 57.9 ± 2.93 57.5 ± 2.74 0.53
Adult BankMarketing 85.9 ± 1.62 83.9 ± 1.18 84.2 ± 1.46 Adult BankMarketing 85.9 ± 1.62 83.9 ± 1.18 84.2 ± 1.46 0.59
1995 income 86.8 ± 1.35 85.9 ± 1.60 86.0 ± 1.69 1995 income 86.8 ± 1.35 85.9 ± 1.60 86.0 ± 1.69 0.59
relative AUC (%) 0.81 ± 0.19 -0.33 ± 0.15 -0.49 ± 0.11 relative AUC (%) 0.81 ± 0.19 -0.33 ± 0.15 -0.49 ± 0.11 0.61
英語(論文から抽出)日本語訳スコア
Figure 6: The pre-training curves of training and validation accuracy for the three different replacement value k for dataset Adult, BankMarketing, and 1995 income. 図6: データセットアダルト、銀行マーケティング、1995年収入の3つの異なる置換値kのトレーニングと検証の事前学習曲線。 0.70
one-hot encode categorical variables or train learnable embeddings. one-hotはカテゴリ変数をエンコードするか、学習可能な埋め込みをトレーニングする。 0.38
For MLPs, they all used SELU activations (Klambauer et al 2017) followed by batch normalization in each layer, and set the number of hidden layers as 2. MLPでは,いずれもSELUアクティベーション(Klambauer et al 2017)を使用し,各レイヤでバッチ正規化を行い,隠蔽層数を2。 0.68
The model-specific hyper-parameters tuned were the first hidden layer with a search space {x = m ∗ l, m ∈ Z|1 ≤ m ≤ 8} where l is the input size, and the second hidden layer with a search space {x = m ∗ l, m ∈ Z|1 ≤ m ≤ 3}. モデル固有のハイパーパラメーターは、l が入力サイズである探索空間 {x = m ∗ l, m ∈ Z|1 ≤ m ≤ 8} を持つ第1の隠蔽層と、探索空間 {x = m ∗ l, m ∈ Z|1 ≤ m ≤ 3} を持つ第2の隠蔽層である。 0.86
For TabTransformer, the hidden (embedding) dimension, the number of layers and the number of attention heads in the Transformer were fixed to 32, 6, and 8 respectively during the experiments. タブトランスフォーマの場合, 実験中に隠れ(埋め込み)寸法, 層数, 注意ヘッド数をそれぞれ32, 6, 8に固定した。 0.60
The MLP layer sizes were fixed to {4 × l, 2 × l}, where l was the size of its input. mlp層の大きさは {4 × l, 2 × l} に固定され、ここで l はその入力の大きさであった。 0.77
However, these parameters were optimally selected based on 50 rounds of HPO run on 5 datasets. しかし、これらのパラメータは、5つのデータセット上で実行される50ラウンドのHPOに基づいて最適に選択された。 0.52
The search spaces were the number of attention heads {2, 4, 8}, the hidden dimension 探索空間は注目ヘッド数 {2, 4, 8}, 隠れ次元である。 0.67
{32, 64, 128, 256}, and the number of layers {1, 2, 3, 6, 12}. {32, 64, 128, 256} および層 {1, 2, 3, 6, 12} の数。 0.76
The search spaces of the first and second hidden layer in MLP are exactly the same as those in MLP model setting. MLPにおける第1および第2の隠蔽層の探索空間は、MLPモデル設定のものと全く同じである。 0.89
The dimension of cφi, (cid:96) was chosen as d/8 based on the ablation study in Appendix A. cφi の次元 (cid:96) は Appendix A のアブレーション研究に基づいて d/8 として選択された。 0.69
For Sparse MLP (Prune), its implementation was the same as the MLP except that at every k epochs during training the fraction p of weights with the smallest magnitude were permanently set to zero. Sparse MLP(Prune)の実装は、トレーニング中のすべてのkエポックにおいて、最小等級の重量の分画pが永久に0に設定されている以外は、MPPと同じであった。 0.73
The model-specific hyperparameters tuned were the fraction p with a search space {x = 5· 10u, u ∈ U|− 2 ≤ u ≤ −1}. モデル固有のハイパーパラメータは、探索空間 {x = 5· 10u, u ∈ U|− 2 ≤ u ≤ −1} を持つ分数 p である。 0.77
The number of layers and layer sizes are exactly the same as the setting in MLP. レイヤ数とレイヤサイズは、mlpの設定とまったく同じです。 0.53
The parameter k is set as 10. パラメータkを10に設定する。 0.67
For TabNet model, we implemented exactly as described in Arik and Pfister (2019), though we also added the option to use a softmax attention instead of a sparsemax attention, and did not include the sparsification term in the loss func- TabNetモデルでは,Arik and Pfister (2019) で説明されているように,スパースマックスアテンションの代わりにソフトマックスアテンションを使用するオプションを追加したが,ロスファンクにはスペース化用語は含まれなかった。 0.65
英語(論文から抽出)日本語訳スコア
Figure 7: The pre-training curves of training and validation accuracy for dynamic mask, static mask, and static mask with a shared predictor (classifier) for dataset Adult, BankMarketing, and 1995 income. 図7: 動的マスク, 静的マスク, 静的マスクのトレーニングおよび検証の事前学習曲線は, データセットアダルト, 銀行マーケティング, および1995年の収入の共用予測器(分類器)で表される。 0.87
tion. The model-specific hyper-parameters tuned were the number of layers with a search space {x ∈ Z|3 ≤ x ≤ 10} , the hidden dimension {x ∈ Z|8 ≤ x ≤ 128}, and the sparse coefficient with a search space {x = 10u, u ∈ U|− 6 ≤ u ≤ −2}. ティメント モデル固有のハイパーパラメータは、探索空間 {x ∈ Z|3 ≤ x ≤ 10} の層数、隠された次元 {x ∈ Z|8 ≤ x ≤ 128} 、探索空間 {x = 10u, u ∈ U|− 6 ≤ u ≤ −2} のスパース係数である。 0.53
B.2 Feature Engineering For categorical variables, the processing options include whether to one-hot encode versus learn a parametric embedding, what embedding dimension to use, and how to apply dropout regularization (whether to drop vector elements or whole embeddings). B.2 特徴エンジニアリング 分類変数の場合、処理オプションには、パラメトリックな埋め込みを学ぶか、どの埋め込み寸法を使うか、ドロップアウト正規化を適用するか(ベクトル要素をドロップするか、または、全体の埋め込みか)が含まれる。 0.73
In our experiments we found that learned embeddings nearly always improved performance as long as the cardinality of the categorical variable is significantly less than the number of data points, otherwise the feature is merely a means for the model to overfit. 我々の実験では、分類変数の濃度がデータポイントの数よりも著しく小さい限り、学習された埋め込みは、ほぼ常に性能を向上することがわかった。
訳抜け防止モード: 実験では、学習した埋め込みがほぼ常にパフォーマンスを向上していることがわかった。 カテゴリー変数の濃度はデータポイントの数よりもかなり小さい そうでなければ、その機能は単にモデルが過度に適合する手段である。
0.67
For scalar variables, the processing options include how to re-scale the variable (via quantiles, normalization, or log scaling) or whether to quantize the feature and treat it like a categorical variable. スカラー変数には、変数を再スケールする方法(量子化、正規化、ログスケーリング)や、機能を定量化し、カテゴリ変数として扱うか、などが含まれる。 0.70
While we have not explored this idea fully, the best strategy is likely to use all the different types of encoding in parallel, turning each scalar feature into three re-scaled features and one categorical feature. このアイデアを十分に検討していないが、最善の戦略は、すべての異なるタイプのエンコーディングを並行して使用することであり、各スカラー機能を3つの再スケール機能と1つのカテゴリ機能に変える。 0.67
Unlike learning embeddings for high-cardinality categorical features, adding potentially-redundan t encodings for scalar variables should not lead to overfitting, but can make the difference between a feature being useful or not. 高カーディナリティのカテゴリ機能のための埋め込み学習とは異なり、スカラー変数に潜在的に冗長なエンコーディングを追加することは、オーバーフィッティングを引き起こすべきではない。 0.67
For text variables, we simply encodes the number of テキスト変数の場合、単純に数値をエンコードする 0.72
words and character in the text. テキスト中の単語と文字。 0.66
C Appendix: Benchmark Dataset Information and Experiment Results C Appendix:ベンチマークデータセット情報と実験結果 0.68
For VIB model, we implemented it as described in Alemi, Fischer, and Dillon (2018). VIBモデルでは、Alemi, Fischer, Dillon (2018) で記述されたように実装した。 0.78
We used a diagonal covariance, with 10 samples from the variational distribution during training and 20 during testing. 訓練中は変分分布から10例, 試験中は20例, 対角共分散を用いた。 0.74
The model-specific hyperparameters tuned were the number of hidden layers and layer sizes, with exactly the same search spaces as MLP, and the number of mixture components in the mixture of gaussians used in the marginal distribution with a search space {x ∈ Z|3 ≤ x ≤ 10}. 調整されたモデル固有のハイパーパラメータは、mlpと全く同じ探索空間を持つ隠れた層と層の大きさの数と、探索空間 {x ∈ z|3 ≤ x ≤ 10} の辺分布で使われるガウスの混合物における混合成分の数である。 0.82
For MLP (DAE), its pre-training used swap noise as described in Jahrer (2018). MLP (DAE) の事前訓練では、Jahrer (2018) に記載されているスワップノイズを使用した。 0.58
The model-specific hyperparameters were exactly the same as MLP. モデル固有のハイパーパラメータは、MLPと全く同じであった。 0.63
For Pseudo Labeling (Lee 2013), since this method was combined with deep models such as MLP, TabTransformer and GBDT, the model-specific hyper-parameters were exactly the same as the corresponding deep models mentioned above. Pseudo Labeling (Lee 2013) では、この手法が MLP、TabTransformer、GBDT といった深度モデルと組み合わせられたため、モデル固有のハイパーパラメータは上記の深度モデルと全く同じであった。 0.73
The unsupervised coefficient α is chosen as αf = 3, T1 = 30, T2 = 70. 教師なし係数 α は αf = 3, T1 = 30 T2 = 70 となる。 0.69
For Entropy Regularization (Grandvalet and Bengio 2006), it is the same as Pseudo Labeling. Entropy Regularization (Grandvalet and Bengio 2006) は Pseudo Labeling と同じである。 0.69
The additional model-specific hyper-parameter was the positive Lagrange multiplier λ with a search space {0.1, 0.2, ..., 0.9}. 追加のモデル固有の超パラメータは、探索空間 {0.1, 0.2, ..., 0.9} を持つ正のラグランジュ乗数λである。 0.66
英語(論文から抽出)日本語訳スコア
Table 8: Benchmark datasets. 表8: ベンチマークデータセット。 0.59
All datasets are binary classification tasks. すべてのデータセットはバイナリ分類タスクである。 0.59
Positive Class% is the fraction of data points that belongs to the positive class. 正のクラス%は正のクラスに属するデータポイントの分数である。 0.68
Dataset Name 1995 income adult albert bank marketing blastchar dota2games fabert hcdr main htru2 insurance co jannis jasmine online shoppers philippine qsar bio seismicbumps shrutime spambase sylvine volkert Dataset Name 1995 income albert bank marketing blastchar dota2games fabert hcdr main htru2 insurance co jannis jasmine online shoppers philippine qsar bio earthquakebumps shrutime spambase sylvine volkert 0.88
N Datapoints N Features 32561 34190 425240 45211 7043 92650 8237 307511 17898 5822 83733 2984 12330 5832 1055 2583 10000 4601 5124 58310 N Datapoints N Features 32561 34190 425240 45211 7043 92650 8237 307511 17898 5822 83733 2984 12330 5832 1055 2583 10000 4601 5124 58310 0.85
14 25 79 16 20 117 801 120 8 85 55 145 17 309 41 18 11 57 20 181 14 25 79 16 20 117 801 120 8 85 55 145 17 309 41 18 11 57 20 181 0.85
Positive Class% 24.1 85.4 50.0 11.7 26.5 52.7 11.3 8.1 9.2 6.0 2.0 50.0 15.5 50.0 33.7 6.6 20.4 39.4 50.0 12.7 Positive Class% 24.1 85.4 50.0 11.7 26.5 52.7 11.3 8.1 9.2 6.0 2.0 50.0 15.5 50.0 33.7 6.6 20.4 39.4 50.0 12.7 0.44
Table 9: Benchmark Dataset Links. 表9:ベンチマークデータセットリンク。 0.54
Dataset Name 1995 income adult albert bank marketing blastchar dota2games fabert hcdr main htru2 insurance co jannis jasmine online shoppers philippine qsar bio seismicbumps shrutime spambase sylvine volkert Dataset Name 1995 income albert bank marketing blastchar dota2games fabert hcdr main htru2 insurance co jannis jasmine online shoppers philippine qsar bio earthquakebumps shrutime spambase sylvine volkert 0.88
URL https://www.kaggle.c om/lodetomasi1995/in come-classification http://automl.chalea rn.org/data http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ bank+marketing https://www.kaggle.c om/blastchar/telco-c ustomer-churn https://archive.ics. uci.edu/ml/datasets/ Dota2+Games+Results http://automl.chalea rn.org/data https://www.kaggle.c om/c/home-credit-def ault-risk https://archive.ics. uci.edu/ml/datasets/ HTRU2 https://archive.ics. uci.edu/ml/datasets/ Insurance+Company+Benchmark+%28COIL+2000%29 http://automl.chalea rn.org/data http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ Online+Shoppers+Purchasing+Intention+Dataset http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ QSAR+biodegradation https://archive.ics. uci.edu/ml/datasets/ seismic-bumps https://www.kaggle.c om/shrutimechlearn/c hurn-modelling https://archive.ics. uci.edu/ml/datasets/ Spambase http://automl.chalea rn.org/data http://automl.chalea rn.org/data URL https://www.kaggle.c om/lodetomasi1995/in come-classification http://automl.chalea rn.org/data http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ bank+marketing https://www.kaggle.c om/blastchar/telco-c ustomer-churn https://archive.ics. uci.edu/ml/datasets/ Dota2+Games+Results http://automl.chalea rn.org/data https://www.kaggle.c om/c/home-credit-def ault-risk https://archive.ics. uci.edu/ml/datasets/ HTRU2 https://archive.ics. uci.edu/ml/datasets/ Insurance+Company+Benchmark+%28COIL+2000%29 http://automl.chalea rn.org/data http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ Online+Shoppers+Purchasing+Intention+Dataset http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ QSAR+biodegradation https://archive.ics. uci.edu/ml/datasets/ seismic-bumps https://www.kaggle.c om/shrutimechlearn/c hurn-modelling https://archive.ics. uci.edu/ml/datasets/ Spambase http://automl.chalea rn.org/data http://automl.chalea rn.org/data 0.24
英語(論文から抽出)日本語訳スコア
Table 10: AUC score for semi-supervised learning models on all datasets with 50 fine-tune data points. 表10: 50の微調整されたデータポイントを持つ全データセットの半教師付き学習モデルのaucスコア。 0.63
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer-RTD TabTransformer-MLM MLP (ER) Tab Transformer-RTD Tab Transformer-MLM MLP (ER) 0.60
N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 32561 1995 income htru2 17898 online shoppers 12330 shrutime 10000 8237 fabert 7043 blastchar 5832 philippine insurance co 5822 5124 sylvine 4601 spambase jasmine 2984 2583 seismicbumps qsar bio 1055 N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 32561 1995 income htru2 17898 online shoppers 12330 shrutime 10000 8237 fabert 7043 blastchar 5832 philippine insurance co 5822 5124 sylvine 4601 spambase jasmine 2984 2583 Earthquakebumps qsar bio 1055 0.89
TabTransformer-MLM 0.644 ± 0.015 0.592 ± 0.047 MLP (DAE) TabTransformer-MLM 0.526 ± 0.009 TabTransformer-RTD 0.684 ± 0.055 TabTransformer-RTD 0.693 ± 0.046 0.771 ± 0.046 MLP (PL) 0.580 ± 0.012 MLP (DAE) TabTransformer-MLM 0.840 ± 0.029 0.956 ± 0.007 MLP (DAE) 0.790 ± 0.013 MLP (DAE) TabTransformer-RTD 0.752 ± 0.019 0.535 ± 0.027 MLP (PL) TabTransformer-MLM 0.806 ± 0.018 TabTransformer-RTD 0.739 ± 0.027 0.601 ± 0.056 MLP (PL) 0.872 ± 0.031 MLP (PL) 0.949 ± 0.005 MLP (ER) TabTransformer-MLM 0.821 ± 0.019 0.740 ± 0.088 TabTransformer (ER) 0.875 ± 0.028 MLP (DAE) TabTransformer-MLM 0.644 ± 0.015 0.592 ± 0.047 MLP (DAE) TabTransformer-MLM 0.526 ± 0.009 TabTransformer-RTD 0.684 ± 0.055 TabTransformer-RTD 0.693 ± 0.046 0.771 ± 0.046 MLP (PL) 0.580 ± 0.012 MLP (DAE) TabTransformer-MLM 0.840 ± 0.029 0.956 ± 0.007 MLP (DAE) 0.790 ± 0.013 MLP (DAE) TabTransformer-RTD 0.752 ± 0.019 0.535 ± 0.027 MLP (PL) TabTransformer-MLM 0.806 ± 0.018 TabTransformer-RTD 0.739 ± 0.027 0.601 ± 0.056 MLP (PL) 0.872 ± 0.031 MLP (PL) 0.949 ± 0.005 MLP (ER) TabTransformer-MLM 0.821 ± 0.019 0.740 ± 0.088 TabTransformer (ER) 0.875 ± 0.028 MLP (DAE) 0.63
50.0 8.1 52.7 2.0 1.0 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 50.0 8.1 52.7 2.0 1.0 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 0.41
79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 0.85
0.647 ± 0.019 0.596 ± 0.047 0.538 ± 0.011 0.665 ± 0.056 0.689 ± 0.042 0.735 ± 0.040 0.613 ± 0.014 0.862 ± 0.018 0.958 ± 0.009 0.780 ± 0.024 0.741 ± 0.019 0.525 ± 0.019 0.822 ± 0.009 0.729 ± 0.035 0.573 ± 0.077 0.898 ± 0.030 0.945 ± 0.011 0.837 ± 0.019 0.738 ± 0.068 0.869 ± 0.036 0.647 ± 0.019 0.596 ± 0.047 0.538 ± 0.011 0.665 ± 0.056 0.689 ± 0.042 0.735 ± 0.040 0.613 ± 0.014 0.862 ± 0.018 0.958 ± 0.009 0.780 ± 0.024 0.741 ± 0.019 0.525 ± 0.019 0.822 ± 0.009 0.729 ± 0.035 0.573 ± 0.077 0.898 ± 0.030 0.945 ± 0.011 0.837 ± 0.019 0.738 ± 0.068 0.869 ± 0.036 0.51
0.612 ± 0.017 0.602 ± 0.033 0.519 ± 0.007 0.621 ± 0.022 0.657 ± 0.028 0.792 ± 0.039 0.609 ± 0.005 0.839 ± 0.034 0.969 ± 0.012 0.855 ± 0.019 0.725 ± 0.032 0.572 ± 0.019 0.803 ± 0.021 0.722 ± 0.031 0.575 ± 0.063 0.930 ± 0.015 0.957 ± 0.008 0.830 ± 0.022 0.712 ± 0.074 0.880 ± 0.022 0.612 ± 0.017 0.602 ± 0.033 0.519 ± 0.007 0.621 ± 0.022 0.657 ± 0.028 0.792 ± 0.039 0.609 ± 0.005 0.839 ± 0.034 0.969 ± 0.012 0.855 ± 0.019 0.725 ± 0.032 0.572 ± 0.019 0.803 ± 0.021 0.722 ± 0.031 0.575 ± 0.063 0.930 ± 0.015 0.957 ± 0.008 0.830 ± 0.022 0.712 ± 0.074 0.880 ± 0.022 0.51
Table 11: (Continued) AUC score for semi-supervised learning models on all datasets with 50 fine-tune data points. 表11: (継続)50個の微調整データポイントを持つすべてのデータセットにおける半教師付き学習モデルのAUCスコア。 0.67
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer (ER) TabTransformer (PL) MLP (DAE) Tab Transformer (ER) Tab Transformer (PL) MLP (DAE) 0.92
MLP (PL) Dataset 0.607 ± 0.013 albert 0.599 ± 0.038 hcdr main 0.520 ± 0.006 dota2games 0.623 ± 0.035 jannis 0.653 ± 0.035 volkert bank marketing 0.805 ± 0.036 0.605 ± 0.021 adult 0.819 ± 0.042 1995 income 0.970 ± 0.012 htru2 online shoppers 0.848 ± 0.021 0.715 ± 0.044 shrutime 0.577 ± 0.027 fabert 0.799 ± 0.025 blastchar 0.725 ± 0.022 philippine 0.601 ± 0.057 insurance co 0.939 ± 0.013 sylvine 0.951 ± 0.010 spambase 0.819 ± 0.021 jasmine 0.678 ± 0.106 seismicbumps 0.875 ± 0.015 qsar bio MLP (PL) Dataset 0.607 ± 0.013 albert 0.599 ± 0.038 hcdr main 0.520 ± 0.006 dota2games 0.623 ± 0.035 jannis 0.653 ± 0.035 volkert bank marketing 0.805 ± 0.036 0.605 ± 0.021 adult 0.819 ± 0.042 1995 income 0.970 ± 0.012 htru2 online shoppers 0.848 ± 0.021 0.715 ± 0.044 shrutime 0.577 ± 0.027 fabert 0.799 ± 0.025 blastchar 0.725 ± 0.022 philippine 0.605 ± ± 0.057 ± 39 ± ± 0.930 ± ± ± 0.021 ± ± 0.021 0.021 ± 0.021 ± 0.021 0.015 ± 0.015 ± 0.015 0.015 %87 % 0.015 % 0.015 % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % 0.43
0.580 ± 0.017 0.581 ± 0.023 0.516 ± 0.009 0.582 ± 0.035 0.635 ± 0.024 0.744 ± 0.063 0.568 ± 0.012 0.813 ± 0.045 0.955 ± 0.007 0.816 ± 0.036 0.748 ± 0.035 0.504 ± 0.020 0.799 ± 0.013 0.689 ± 0.046 0.575 ± 0.066 0.891 ± 0.022 0.947 ± 0.006 0.825 ± 0.024 0.745 ± 0.080 0.851 ± 0.041 0.580 ± 0.017 0.581 ± 0.023 0.516 ± 0.009 0.582 ± 0.035 0.635 ± 0.024 0.744 ± 0.063 0.568 ± 0.012 0.813 ± 0.045 0.955 ± 0.007 0.816 ± 0.036 0.748 ± 0.035 0.504 ± 0.020 0.799 ± 0.013 0.689 ± 0.046 0.575 ± 0.066 0.891 ± 0.022 0.947 ± 0.006 0.825 ± 0.024 0.745 ± 0.080 0.851 ± 0.041 0.51
0.587 ± 0.012 0.570 ± 0.031 0.519 ± 0.008 0.604 ± 0.013 0.639 ± 0.040 0.767 ± 0.058 0.582 ± 0.024 0.822 ± 0.048 0.951 ± 0.009 0.818 ± 0.028 0.739 ± 0.034 0.516 ± 0.020 0.792 ± 0.025 0.703 ± 0.050 0.592 ± 0.080 0.904 ± 0.027 0.948 ± 0.006 0.819 ± 0.018 0.713 ± 0.090 0.835 ± 0.053 0.587 ± 0.012 0.570 ± 0.031 0.519 ± 0.008 0.604 ± 0.013 0.639 ± 0.040 0.767 ± 0.058 0.582 ± 0.024 0.822 ± 0.048 0.951 ± 0.009 0.818 ± 0.028 0.739 ± 0.034 0.516 ± 0.020 0.792 ± 0.025 0.703 ± 0.050 0.592 ± 0.080 0.904 ± 0.027 0.948 ± 0.006 0.819 ± 0.018 0.713 ± 0.090 0.835 ± 0.053 0.51
GBDT (PL) 0.612 ± 0.014 0.547 ± 0.032 0.620 ± 0.028 0.531 ± 0.024 0.516 ± 0.004 0.505 ± 0.008 0.626 ± 0.023 0.519 ± 0.047 0.629 ± 0.019 0.525 ± 0.018 0.786 ± 0.055 0.688 ± 0.057 0.616 ± 0.010 0.519 ± 0.024 0.811 ± 0.042 0.685 ± 0.084 0.973 ± 0.003 0.919 ± 0.021 0.858 ± 0.019 0.818 ± 0.032 0.683 ± 0.055 0.651 ± 0.093 0.552 ± 0.013 0.534 ± 0.016 0.817 ± 0.016 0.729 ± 0.053 0.717 ± 0.022 0.628 ± 0.085 0.522 ± 0.052 0.560 ± 0.081 0.925 ± 0.010 0.914 ± 0.021 0.949 ± 0.012 0.899 ± 0.039 0.812 ± 0.029 0.755 ± 0.016 0.724 ± 0.049 0.601 ± 0.071 0.888 ± 0.022 0.804 ± 0.057 GBDT (PL) 0.612 ± 0.014 0.547 ± 0.032 0.620 ± 0.028 0.531 ± 0.024 0.516 ± 0.004 0.505 ± 0.008 0.626 ± 0.023 0.519 ± 0.047 0.629 ± 0.019 0.525 ± 0.018 0.786 ± 0.055 0.688 ± 0.057 0.616 ± 0.010 0.519 ± 0.024 0.811 ± 0.042 0.685 ± 0.084 0.973 ± 0.003 0.919 ± 0.021 0.858 ± 0.019 0.818 ± 0.032 0.683 ± 0.055 0.651 ± 0.093 0.552 ± 0.013 0.534 ± 0.016 0.817 ± 0.016 0.729 ± 0.053 0.717 ± 0.022 0.628 ± 0.085 0.522 ± 0.052 0.560 ± 0.081 0.925 ± 0.010 0.914 ± 0.021 0.949 ± 0.012 0.899 ± 0.039 0.812 ± 0.029 0.755 ± 0.016 0.724 ± 0.049 0.601 ± 0.071 0.888 ± 0.022 0.804 ± 0.057 0.52
Table 12: AUC score for semi-supervised learning models on all datasets with 200 fine-tune data points. 表12:200の微調整されたデータポイントを持つ全データセット上の半教師付き学習モデルのaucスコア。 0.60
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer-RTD TabTransformer-MLM MLP (ER) Tab Transformer-RTD Tab Transformer-MLM MLP (ER) 0.60
N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 32561 1995 income htru2 17898 online shoppers 12330 10000 shrutime 8237 fabert blastchar 7043 5832 philippine 5822 insurance co 5124 sylvine 4601 spambase 2984 jasmine 2583 seismicbumps qsar bio 1055 N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 32561 1995 income htru2 17898 online shoppers 12330 10000 shrutime 8237 fabert blastchar 7043 5832 philippine 5822 insurance co 5124 sylvine 4601 spambase 2984 jasmine 2583 earthquakebumps qsar bio 1055 0.89
TabTransformer-MLM 0.699 ± 0.011 TabTransformer-MLM 0.655 ± 0.040 TabTransformer-MLM 0.536 ± 0.012 TabTransformer-RTD 0.713 ± 0.037 TabTransformer-RTD 0.753 ± 0.022 0.854 ± 0.020 MLP (PL) 0.596 ± 0.023 MLP (ER) TabTransformer-MLM 0.866 ± 0.014 0.961 ± 0.008 MLP (DAE) 0.834 ± 0.015 MLP (ER) TabTransformer-RTD 0.805 ± 0.017 0.556 ± 0.023 MLP (ER) TabTransformer-MLM 0.831 ± 0.010 TabTransformer-RTD 0.757 ± 0.017 0.667 ± 0.062 TabTransformer (ER) 0.939 ± 0.008 MLP (PL) 0.957 ± 0.006 MLP (ER) TabTransformer-RTD 0.843 ± 0.016 TabTransformer-RTD 0.738 ± 0.063 TabTransformer-RTD 0.896 ± 0.018 TabTransformer-MLM 0.699 ± 0.011 TabTransformer-MLM 0.655 ± 0.040 TabTransformer-MLM 0.536 ± 0.012 TabTransformer-RTD 0.713 ± 0.037 TabTransformer-RTD 0.753 ± 0.022 0.854 ± 0.020 MLP (PL) 0.596 ± 0.023 MLP (ER) TabTransformer-MLM 0.866 ± 0.014 0.961 ± 0.008 MLP (DAE) 0.834 ± 0.015 MLP (ER) TabTransformer-RTD 0.805 ± 0.017 0.556 ± 0.023 MLP (ER) TabTransformer-MLM 0.831 ± 0.010 TabTransformer-RTD 0.757 ± 0.017 0.667 ± 0.062 TabTransformer (ER) 0.939 ± 0.008 MLP (PL) 0.957 ± 0.006 MLP (ER) TabTransformer-RTD 0.843 ± 0.016 TabTransformer-RTD 0.738 ± 0.063 TabTransformer-RTD 0.896 ± 0.018 0.59
50.0 8.1 52.7 2.0 12.7 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 50.0 8.1 52.7 2.0 12.7 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 0.41
79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 0.85
0.701 ± 0.014 0.668 ± 0.028 0.549 ± 0.008 0.692 ± 0.024 0.742 ± 0.023 0.838 ± 0.010 0.614 ± 0.012 0.875 ± 0.011 0.963 ± 0.009 0.838 ± 0.024 0.783 ± 0.024 0.561 ± 0.028 0.841 ± 0.014 0.754 ± 0.016 0.640 ± 0.043 0.948 ± 0.006 0.955 ± 0.010 0.843 ± 0.028 0.708 ± 0.083 0.889 ± 0.030 0.701 ± 0.014 0.668 ± 0.028 0.549 ± 0.008 0.692 ± 0.024 0.742 ± 0.023 0.838 ± 0.010 0.614 ± 0.012 0.875 ± 0.011 0.963 ± 0.009 0.838 ± 0.024 0.783 ± 0.024 0.561 ± 0.028 0.841 ± 0.014 0.754 ± 0.016 0.640 ± 0.043 0.948 ± 0.006 0.955 ± 0.010 0.843 ± 0.028 0.708 ± 0.083 0.889 ± 0.030 0.51
0.642 ± 0.020 0.639 ± 0.027 0.527 ± 0.012 0.665 ± 0.024 0.696 ± 0.033 0.860 ± 0.008 0.623 ± 0.017 0.868 ± 0.007 0.974 ± 0.007 0.876 ± 0.019 0.773 ± 0.013 0.600 ± 0.046 0.829 ± 0.010 0.732 ± 0.024 0.601 ± 0.059 0.957 ± 0.008 0.968 ± 0.009 0.831 ± 0.019 0.694 ± 0.088 0.895 ± 0.026 0.642 ± 0.020 0.639 ± 0.027 0.527 ± 0.012 0.665 ± 0.024 0.696 ± 0.033 0.860 ± 0.008 0.623 ± 0.017 0.868 ± 0.007 0.974 ± 0.007 0.876 ± 0.019 0.773 ± 0.013 0.600 ± 0.046 0.829 ± 0.010 0.732 ± 0.024 0.601 ± 0.059 0.957 ± 0.008 0.968 ± 0.009 0.831 ± 0.019 0.694 ± 0.088 0.895 ± 0.026 0.51
英語(論文から抽出)日本語訳スコア
Table 13: (Continued) AUC score for semi-supervised learning models on all datasets with 200 fine-tune data points. 表13: (継続)200個の微調整データポイントを持つすべてのデータセットにおける半教師付き学習モデルのAUCスコア。 0.66
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer (ER) TabTransformer (PL) MLP (DAE) Tab Transformer (ER) Tab Transformer (PL) MLP (DAE) 0.92
MLP (PL) Dataset 0.638 ± 0.024 albert 0.631 ± 0.019 hcdr main 0.527 ± 0.014 dota2games 0.667 ± 0.036 jannis 0.693 ± 0.028 volkert bank marketing 0.866 ± 0.008 0.616 ± 0.014 adult 0.869 ± 0.009 1995 income 0.974 ± 0.007 htru2 online shoppers 0.873 ± 0.030 0.774 ± 0.018 shrutime 0.595 ± 0.048 fabert 0.829 ± 0.011 blastchar 0.733 ± 0.018 philippine 0.616 ± 0.045 insurance co 0.961 ± 0.004 sylvine 0.965 ± 0.008 spambase 0.839 ± 0.013 jasmine 0.684 ± 0.071 seismicbumps 0.892 ± 0.033 qsar bio MLP (PL) Dataset 0.638 ± 0.024 albert 0.631 ± 0.019 hcdr main 0.527 ± 0.014 dota2games 0.667 ± 0.036 jannis 0.693 ± 0.028 volkert bank marketing 0.866 ± 0.008 0.616 ± 0.014 adult 0.869 ± 0.009 1995 income 0.974 ± 0.007 htru2 online shoppers 0.873 ± 0.030 0.774 ± 0.018 shrutime 0.595 ± 0.048 fabert 0.829 ± 0.011 blastchar 0.733 ± 0.018 philippine 0.616 ± 0.616 ± 0.616 ± 0.616 16 ± ± 0.007 ± 0.007 htru2 online shoppers 0.873 ±30 0.774 ± 0.018 shrutime 0.595 ± 0.048 fabert 0.829 ±29 0.011 ±11 blastchar 0.733 ± ± 18 0.018 0.518 </18 ^ pippine 0.616 ± 0.616 ± ± 0.048 co 0.028 co ± 0.028 co 0.028 ± ± 0.016 0.016 ± ± 0.03 ± ± 0.03 ± ± 0.03 0.013 % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % 0.21
0.630 ± 0.025 0.611 ± 0.030 0.528 ± 0.017 0.619 ± 0.024 0.694 ± 0.002 0.853 ± 0.016 0.582 ± 0.026 0.848 ± 0.024 0.955 ± 0.007 0.857 ± 0.014 0.803 ± 0.022 0.530 ± 0.027 0.823 ± 0.011 0.736 ± 0.018 0.715 ± 0.038 0.951 ± 0.009 0.962 ± 0.006 0.824 ± 0.024 0.723 ± 0.080 0.871 ± 0.036 0.630 ± 0.025 0.611 ± 0.030 0.528 ± 0.017 0.619 ± 0.024 0.694 ± 0.002 0.853 ± 0.016 0.582 ± 0.026 0.848 ± 0.024 0.955 ± 0.007 0.857 ± 0.014 0.803 ± 0.022 0.530 ± 0.027 0.823 ± 0.011 0.736 ± 0.018 0.715 ± 0.038 0.951 ± 0.009 0.962 ± 0.006 0.824 ± 0.024 0.723 ± 0.080 0.871 ± 0.036 0.51
0.630 ± 0.021 0.605 ± 0.021 0.525 ± 0.011 0.637 ± 0.026 0.689 ± 0.015 0.858 ± 0.009 0.584 ± 0.017 0.852 ± 0.015 0.954 ± 0.007 0.853 ± 0.017 0.803 ± 0.024 0.522 ± 0.024 0.823 ± 0.011 0.739 ± 0.024 0.680 ± 0.034 0.950 ± 0.010 0.960 ± 0.008 0.841 ± 0.016 0.727 ± 0.081 0.876 ± 0.032 0.630 ± 0.021 0.605 ± 0.021 0.525 ± 0.011 0.637 ± 0.026 0.689 ± 0.015 0.858 ± 0.009 0.584 ± 0.017 0.852 ± 0.015 0.954 ± 0.007 0.853 ± 0.017 0.803 ± 0.024 0.522 ± 0.024 0.823 ± 0.011 0.739 ± 0.024 0.680 ± 0.034 0.950 ± 0.010 0.960 ± 0.008 0.841 ± 0.016 0.727 ± 0.081 0.876 ± 0.032 0.51
GBDT (PL) 0.646 ± 0.023 0.628 ± 0.015 0.636 ± 0.027 0.579 ± 0.039 0.528 ± 0.012 0.506 ± 0.008 0.659 ± 0.020 0.525 ± 0.030 0.672 ± 0.015 0.612 ± 0.042 0.863 ± 0.009 0.802 ± 0.012 0.611 ± 0.027 0.572 ± 0.040 0.865 ± 0.011 0.822 ± 0.020 0.974 ± 0.010 0.946 ± 0.022 0.873 ± 0.021 0.846 ± 0.019 0.763 ± 0.018 0.750 ± 0.050 0.580 ± 0.020 0.573 ± 0.026 0.832 ± 0.013 0.783 ± 0.017 0.720 ± 0.020 0.729 ± 0.024 0.612 ± 0.024 0.630 ± 0.087 0.955 ± 0.009 0.957 ± 0.005 0.964 ± 0.009 0.957 ± 0.013 0.842 ± 0.014 0.826 ± 0.013 0.673 ± 0.070 0.603 ± 0.023 0.891 ± 0.018 0.855 ± 0.035 GBDT (PL) 0.646 ± 0.023 0.628 ± 0.015 0.636 ± 0.027 0.579 ± 0.039 0.528 ± 0.012 0.506 ± 0.008 0.659 ± 0.020 0.525 ± 0.030 0.672 ± 0.015 0.612 ± 0.042 0.863 ± 0.009 0.802 ± 0.012 0.611 ± 0.027 0.572 ± 0.040 0.865 ± 0.011 0.822 ± 0.020 0.974 ± 0.010 0.946 ± 0.022 0.873 ± 0.021 0.846 ± 0.019 0.763 ± 0.018 0.750 ± 0.050 0.580 ± 0.020 0.573 ± 0.026 0.832 ± 0.013 0.783 ± 0.017 0.720 ± 0.020 0.729 ± 0.024 0.612 ± 0.024 0.630 ± 0.087 0.955 ± 0.009 0.957 ± 0.005 0.964 ± 0.009 0.957 ± 0.013 0.842 ± 0.014 0.826 ± 0.013 0.673 ± 0.070 0.603 ± 0.023 0.891 ± 0.018 0.855 ± 0.035 0.52
Table 14: AUC score for semi-supervised learning models on all datasets with 500 fine-tune data points. 表 14: auc score for semi-supervised learning models on all datasets with 500 fine-tune data points。 0.85
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer-RTD TabTransformer-MLM MLP (ER) Tab Transformer-RTD Tab Transformer-MLM MLP (ER) 0.60
N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 1995 income 32561 htru2 17898 online shoppers 12330 10000 shrutime 8237 fabert 7043 blastchar 5832 philippine 5822 insurance co sylvine 5124 4601 spambase 2984 jasmine 2583 seismicbumps qsar bio 1055 N Datapoints N Features Positive Class% Best Model Dataset 425240 albert 307511 hcdr main 92650 dota2games 83733 jannis volkert 58310 bank marketing 45211 34190 adult 1995 income 32561 htru2 17898 online shoppers 12330 10000 shrutime 8237 fabert 7043 blastchar 5832 philippine 5822 insurance co sylvine 5124 4601 spambase 2984 jasmine 2583 earthquakebumps qsar bio 1055 0.89
TabTransformer-RTD 0.711 ± 0.004 TabTransformer-MLM 0.690 ± 0.038 TabTransformer-MLM 0.548 ± 0.008 TabTransformer-RTD 0.747 ± 0.015 TabTransformer-RTD 0.771 ± 0.016 TabTransformer-RTD 0.879 ± 0.012 0.625 ± 0.011 MLP (PL) 0.874 ± 0.008 MLP (DAE) 0.964 ± 0.009 MLP (DAE) 0.859 ± 0.009 MLP (ER) TabTransformer-RTD 0.831 ± 0.017 0.618 ± 0.014 MLP (ER) TabTransformer-RTD 0.840 ± 0.013 TabTransformer-MLM 0.769 ± 0.028 0.688 ± 0.039 TabTransformer (ER) 0.955 ± 0.007 MLP (PL) 0.966 ± 0.007 MLP (ER) TabTransformer-RTD 0.847 ± 0.016 TabTransformer-RTD 0.758 ± 0.081 0.909 ± 0.024 MLP (DAE) TabTransformer-RTD 0.711 ± 0.004 TabTransformer-MLM 0.690 ± 0.038 TabTransformer-MLM 0.548 ± 0.008 TabTransformer-RTD 0.747 ± 0.015 TabTransformer-RTD 0.771 ± 0.016 TabTransformer-RTD 0.879 ± 0.012 0.625 ± 0.011 MLP (PL) 0.874 ± 0.008 MLP (DAE) 0.964 ± 0.009 MLP (DAE) 0.859 ± 0.009 MLP (ER) TabTransformer-RTD 0.831 ± 0.017 0.618 ± 0.014 MLP (ER) TabTransformer-RTD 0.840 ± 0.013 TabTransformer-MLM 0.769 ± 0.028 0.688 ± 0.039 TabTransformer (ER) 0.955 ± 0.007 MLP (PL) 0.966 ± 0.007 MLP (ER) TabTransformer-RTD 0.847 ± 0.016 TabTransformer-RTD 0.758 ± 0.081 0.909 ± 0.024 MLP (DAE) 0.61
50.0 8.1 52.7 2.0 12.7 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 50.0 8.1 52.7 2.0 12.7 11.7 85.4 24.1 9.2 15.5 20.4 11.3 26.5 50.0 6.0 50.0 39.4 50.0 6.6 33.7 0.41
79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 79 120 117 55 181 16 25 14 8 17 11 801 20 309 85 20 57 145 18 41 0.85
0.707 ± 0.006 0.698 ± 0.033 0.557 ± 0.003 0.720 ± 0.018 0.760 ± 0.015 0.866 ± 0.016 0.647 ± 0.008 0.880 ± 0.007 0.966 ± 0.009 0.861 ± 0.014 0.815 ± 0.004 0.609 ± 0.019 0.839 ± 0.015 0.772 ± 0.017 0.642 ± 0.029 0.959 ± 0.006 0.968 ± 0.008 0.844 ± 0.011 0.729 ± 0.069 0.889 ± 0.038 0.707 ± 0.006 0.698 ± 0.033 0.557 ± 0.003 0.720 ± 0.018 0.760 ± 0.015 0.866 ± 0.016 0.647 ± 0.008 0.880 ± 0.007 0.966 ± 0.009 0.861 ± 0.014 0.815 ± 0.004 0.609 ± 0.019 0.839 ± 0.015 0.772 ± 0.017 0.642 ± 0.029 0.959 ± 0.006 0.968 ± 0.008 0.844 ± 0.011 0.729 ± 0.069 0.889 ± 0.038 0.51
0.666 ± 0.008 0.653 ± 0.019 0.543 ± 0.008 0.707 ± 0.036 0.723 ± 0.016 0.869 ± 0.012 0.644 ± 0.015 0.878 ± 0.002 0.973 ± 0.010 0.888 ± 0.012 0.793 ± 0.017 0.621 ± 0.032 0.829 ± 0.013 0.734 ± 0.024 0.659 ± 0.023 0.967 ± 0.003 0.975 ± 0.004 0.837 ± 0.019 0.682 ± 0.123 0.918 ± 0.023 0.666 ± 0.008 0.653 ± 0.019 0.543 ± 0.008 0.707 ± 0.036 0.723 ± 0.016 0.869 ± 0.012 0.644 ± 0.015 0.878 ± 0.002 0.973 ± 0.010 0.888 ± 0.012 0.793 ± 0.017 0.621 ± 0.032 0.829 ± 0.013 0.734 ± 0.024 0.659 ± 0.023 0.967 ± 0.003 0.975 ± 0.004 0.837 ± 0.019 0.682 ± 0.123 0.918 ± 0.023 0.51
Table 15: (Continued) AUC score for semi-supervised learning models on all datasets with 500 fine-tune data points. 表15: (継続)500個の微調整データポイントを持つすべてのデータセットにおける半教師付き学習モデルのAUCスコア。 0.68
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
TabTransformer (ER) TabTransformer (PL) MLP (DAE) Tab Transformer (ER) Tab Transformer (PL) MLP (DAE) 0.92
MLP (PL) Dataset 0.662 ± 0.007 albert 0.645 ± 0.022 hcdr main 0.544 ± 0.010 dota2games 0.698 ± 0.033 jannis 0.722 ± 0.012 volkert bank marketing 0.876 ± 0.017 0.651 ± 0.012 adult 0.880 ± 0.003 1995 income 0.974 ± 0.007 htru2 online shoppers 0.885 ± 0.021 0.800 ± 0.015 shrutime 0.596 ± 0.046 fabert 0.833 ± 0.013 blastchar 0.740 ± 0.023 philippine 0.646 ± 0.048 insurance co 0.968 ± 0.003 sylvine 0.973 ± 0.005 spambase 0.833 ± 0.009 jasmine 0.677 ± 0.103 seismicbumps 0.914 ± 0.032 qsar bio MLP (PL) Dataset 0.662 ± 0.007 albert 0.645 ± 0.022 hcdr main 0.544 ± 0.010 dota2games 0.698 ± 0.033 jannis 0.722 ± 0.012 volkert bank marketing 0.876 ± 0.017 0.651 ± 0.012 adult 0.880 ± 0.003 1995 income 0.974 ± 0.007 htru2 online shoppers 0.885 ± 0.021 0.800 ± 0.015 shrutime 0.596 ± 0.046 fabert 0.833 ± 0.013 blastchar 0.740 ± 0.023 philippine 0.622 ± 0.03 ± 0.048 0.848 co ± ± ± ± ± ± ± ± ± 0.03 ±1 ±0.03 ±0.01 ±0.01 ±0.03 0.01 ±0.01 ±0.01 ±0.01 0.03 0.01 0.01 %1 %1 %3 %1 %1 % %1 %2 %2 % % %2 % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % % 0.39
0.664 ± 0.011 0.623 ± 0.036 0.538 ± 0.009 0.662 ± 0.007 0.712 ± 0.016 0.863 ± 0.008 0.618 ± 0.023 0.868 ± 0.008 0.960 ± 0.010 0.861 ± 0.011 0.825 ± 0.013 0.573 ± 0.048 0.834 ± 0.013 0.746 ± 0.020 0.710 ± 0.040 0.958 ± 0.005 0.968 ± 0.007 0.833 ± 0.021 0.687 ± 0.100 0.894 ± 0.036 0.664 ± 0.011 0.623 ± 0.036 0.538 ± 0.009 0.662 ± 0.007 0.712 ± 0.016 0.863 ± 0.008 0.618 ± 0.023 0.868 ± 0.008 0.960 ± 0.010 0.861 ± 0.011 0.825 ± 0.013 0.573 ± 0.048 0.834 ± 0.013 0.746 ± 0.020 0.710 ± 0.040 0.958 ± 0.005 0.968 ± 0.007 0.833 ± 0.021 0.687 ± 0.100 0.894 ± 0.036 0.51
0.643 ± 0.029 0.636 ± 0.031 0.541 ± 0.010 0.660 ± 0.024 0.705 ± 0.021 0.868 ± 0.016 0.618 ± 0.021 0.869 ± 0.007 0.960 ± 0.008 0.860 ± 0.013 0.822 ± 0.016 0.578 ± 0.033 0.832 ± 0.011 0.735 ± 0.015 0.666 ± 0.060 0.958 ± 0.003 0.967 ± 0.006 0.838 ± 0.018 0.735 ± 0.081 0.895 ± 0.035 0.643 ± 0.029 0.636 ± 0.031 0.541 ± 0.010 0.660 ± 0.024 0.705 ± 0.021 0.868 ± 0.016 0.618 ± 0.021 0.869 ± 0.007 0.960 ± 0.008 0.860 ± 0.013 0.822 ± 0.016 0.578 ± 0.033 0.832 ± 0.011 0.735 ± 0.015 0.666 ± 0.060 0.958 ± 0.003 0.967 ± 0.006 0.838 ± 0.018 0.735 ± 0.081 0.895 ± 0.035 0.51
GBDT (PL) 0.666 ± 0.006 0.653 ± 0.011 0.657 ± 0.033 0.607 ± 0.035 0.542 ± 0.012 0.505 ± 0.005 0.693 ± 0.024 0.521 ± 0.045 0.712 ± 0.016 0.705 ± 0.016 0.874 ± 0.012 0.838 ± 0.019 0.654 ± 0.016 0.647 ± 0.030 0.882 ± 0.001 0.839 ± 0.013 0.976 ± 0.006 0.949 ± 0.007 0.885 ± 0.019 0.865 ± 0.011 0.804 ± 0.015 0.788 ± 0.019 0.617 ± 0.042 0.585 ± 0.025 0.833 ± 0.012 0.795 ± 0.021 0.739 ± 0.017 0.749 ± 0.026 0.612 ± 0.013 0.672 ± 0.037 0.967 ± 0.003 0.967 ± 0.006 0.972 ± 0.006 0.972 ± 0.005 0.842 ± 0.011 0.838 ± 0.022 0.696 ± 0.112 0.666 ± 0.063 0.925 ± 0.034 0.908 ± 0.024 GBDT (PL) 0.666 ± 0.006 0.653 ± 0.011 0.657 ± 0.033 0.607 ± 0.035 0.542 ± 0.012 0.505 ± 0.005 0.693 ± 0.024 0.521 ± 0.045 0.712 ± 0.016 0.705 ± 0.016 0.874 ± 0.012 0.838 ± 0.019 0.654 ± 0.016 0.647 ± 0.030 0.882 ± 0.001 0.839 ± 0.013 0.976 ± 0.006 0.949 ± 0.007 0.885 ± 0.019 0.865 ± 0.011 0.804 ± 0.015 0.788 ± 0.019 0.617 ± 0.042 0.585 ± 0.025 0.833 ± 0.012 0.795 ± 0.021 0.739 ± 0.017 0.749 ± 0.026 0.612 ± 0.013 0.672 ± 0.037 0.967 ± 0.003 0.967 ± 0.006 0.972 ± 0.006 0.972 ± 0.005 0.842 ± 0.011 0.838 ± 0.022 0.696 ± 0.112 0.666 ± 0.063 0.925 ± 0.034 0.908 ± 0.024 0.52
英語(論文から抽出)日本語訳スコア
Table 16: AUC score for supervised learning models on all datasets. 表 16: auc score for supervised learning models on all datasets (英語) 0.77
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
Dataset ds name albert hcdr main dota2games bank marketing adult 1995 income online shoppers shrutime blastchar philippine insurance co spambase jasmine seismicbumps qsar bio Dataset ds name albert hcdr main dota2games bank marketing adult 1995 income online shoppers shrutime blastchar philippine insurance co spambase jasmine earthquakebumps qsar bio 0.90
N Datapoints N Features N Datapoints N Features 0.85
Positive Class% Best Model 正のclass%ベストモデル 0.83
Logistic Regression GBDT Logistic Regression GBDT 0.85
425240 307511 92650 45211 34190 32561 12330 10000 7043 5832 5822 4601 2984 2583 1055 425240 307511 92650 45211 34190 32561 12330 10000 7043 5832 5822 4601 2984 2583 1055 0.85
79 120 117 16 25 14 17 11 20 309 85 57 145 18 41 79 120 117 16 25 14 17 11 20 309 85 57 145 18 41 0.85
50.0 8.1 52.7 11.7 85.4 24.1 15.5 20.4 26.5 50.0 6.0 39.4 50.0 6.6 33.7 50.0 8.1 52.7 11.7 85.4 24.1 15.5 20.4 26.5 50.0 6.0 39.4 50.0 6.6 33.7 0.41
GBDT GBDT Logistic Regression TabTransformer GBDT TabTransformer GBDT GBDT GBDT TabTransformer TabTransformer GBDT GBDT GBDT TabTransformer GBDT GBDT Logistic Regression Tab Transformer GBDT Tab Transformer GBDT GBDT GBDT Tab Transformer GBDT GBDT GBDT Tab Transformer 0.97
0.726 ± 0.001 0.747 ± 0.004 0.634 ± 0.003 0.911 ± 0.005 0.721 ± 0.010 0.899 ± 0.002 0.908 ± 0.015 0.828 ± 0.013 0.844 ± 0.010 0.725 ± 0.022 0.736 ± 0.023 0.947 ± 0.008 0.846 ± 0.017 0.749 ± 0.068 0.847 ± 0.037 0.726 ± 0.001 0.747 ± 0.004 0.634 ± 0.003 0.911 ± 0.005 0.721 ± 0.010 0.899 ± 0.002 0.908 ± 0.015 0.828 ± 0.013 0.844 ± 0.010 0.725 ± 0.022 0.736 ± 0.023 0.947 ± 0.008 0.846 ± 0.017 0.749 ± 0.068 0.847 ± 0.037 0.51
0.763 ± 0.001 0.756 ± 0.004 0.621 ± 0.004 0.933 ± 0.003 0.756 ± 0.011 0.906 ± 0.002 0.930 ± 0.008 0.859 ± 0.009 0.847 ± 0.016 0.812 ± 0.013 0.732 ± 0.022 0.987 ± 0.005 0.862 ± 0.008 0.756 ± 0.084 0.913 ± 0.031 0.763 ± 0.001 0.756 ± 0.004 0.621 ± 0.004 0.933 ± 0.003 0.756 ± 0.011 0.906 ± 0.002 0.930 ± 0.008 0.859 ± 0.009 0.847 ± 0.016 0.812 ± 0.013 0.732 ± 0.022 0.987 ± 0.005 0.862 ± 0.008 0.756 ± 0.084 0.913 ± 0.031 0.51
Table 17: (Continued) AUC score for supervised learning models on all datasets. 表17: (継続) すべてのデータセット上の教師付き学習モデルのためのAUCスコア。 0.71
Values are the mean over 5 cross-validation splits, plus or minus the standard deviation. 値は、平均で5つ以上のクロスバリデーションスプリットであり、標準偏差を減じる。 0.67
Larger values means better result. 大きな値はより良い結果を意味する。 0.62
ds name albert hcdr main dota2games bank marketing adult 1995 income online shoppers shrutime blastchar philippine insurance co spambase jasmine seismicbumps qsar bio Ds name albert hcdr main dota2games bank marketing adult 1995 income online shoppers shrutime blastchar philippine insurance co spambase jasmine earthquakebumps qsar bio 0.90
MLP Sparse MLP MLP スパースMLP 0.81
TabTransformer TabNet Tab Transformer TabNet 0.83
VIB 0.740 ± 0.001 0.743 ± 0.004 0.631 ± 0.002 0.929 ± 0.003 0.725 ± 0.010 0.905 ± 0.003 0.919 ± 0.010 0.846 ± 0.013 0.839 ± 0.010 0.821 ± 0.020 0.697 ± 0.027 0.984 ± 0.004 0.851 ± 0.015 0.735 ± 0.028 0.910 ± 0.037 VIB 0.740 ± 0.001 0.743 ± 0.004 0.631 ± 0.002 0.929 ± 0.003 0.725 ± 0.010 0.905 ± 0.003 0.919 ± 0.010 0.846 ± 0.013 0.839 ± 0.010 0.821 ± 0.020 0.697 ± 0.027 0.984 ± 0.004 0.851 ± 0.015 0.735 ± 0.028 0.910 ± 0.037 0.68
0.741 ± 0.001 0.753 ± 0.004 0.633 ± 0.004 0.926 ± 0.007 0.740 ± 0.007 0.904 ± 0.004 0.922 ± 0.011 0.828 ± 0.007 0.842 ± 0.015 0.764 ± 0.018 0.705 ± 0.054 0.980 ± 0.009 0.856 ± 0.013 0.699 ± 0.074 0.916 ± 0.036 0.741 ± 0.001 0.753 ± 0.004 0.633 ± 0.004 0.926 ± 0.007 0.740 ± 0.007 0.904 ± 0.004 0.922 ± 0.011 0.828 ± 0.007 0.842 ± 0.015 0.764 ± 0.018 0.705 ± 0.054 0.980 ± 0.009 0.856 ± 0.013 0.699 ± 0.074 0.916 ± 0.036 0.51
0.757 ± 0.002 0.751 ± 0.004 0.633 ± 0.002 0.934 ± 0.004 0.737 ± 0.009 0.906 ± 0.003 0.927 ± 0.010 0.856 ± 0.005 0.835 ± 0.014 0.834 ± 0.018 0.744 ± 0.009 0.985 ± 0.005 0.853 ± 0.015 0.751 ± 0.096 0.918 ± 0.038 0.757 ± 0.002 0.751 ± 0.004 0.633 ± 0.002 0.934 ± 0.004 0.737 ± 0.009 0.906 ± 0.003 0.927 ± 0.010 0.856 ± 0.005 0.835 ± 0.014 0.834 ± 0.018 0.744 ± 0.009 0.985 ± 0.005 0.853 ± 0.015 0.751 ± 0.096 0.918 ± 0.038 0.51
0.705 ± 0.005 0.711 ± 0.006 0.529 ± 0.025 0.885 ± 0.017 0.663 ± 0.016 0.875 ± 0.006 0.888 ± 0.020 0.785 ± 0.024 0.816 ± 0.014 0.721 ± 0.008 0.630 ± 0.061 0.975 ± 0.008 0.816 ± 0.017 0.701 ± 0.051 0.860 ± 0.038 0.705 ± 0.005 0.711 ± 0.006 0.529 ± 0.025 0.885 ± 0.017 0.663 ± 0.016 0.875 ± 0.006 0.888 ± 0.020 0.785 ± 0.024 0.816 ± 0.014 0.721 ± 0.008 0.630 ± 0.061 0.975 ± 0.008 0.816 ± 0.017 0.701 ± 0.051 0.860 ± 0.038 0.51
0.737 ± 0.001 0.745 ± 0.005 0.628 ± 0.003 0.920 ± 0.005 0.733 ± 0.009 0.904 ± 0.003 0.907 ± 0.012 0.833 ± 0.011 0.842 ± 0.012 0.757 ± 0.018 0.647 ± 0.028 0.983 ± 0.004 0.847 ± 0.017 0.681 ± 0.084 0.914 ± 0.028 0.737 ± 0.001 0.745 ± 0.005 0.628 ± 0.003 0.920 ± 0.005 0.733 ± 0.009 0.904 ± 0.003 0.907 ± 0.012 0.833 ± 0.011 0.842 ± 0.012 0.757 ± 0.018 0.647 ± 0.028 0.983 ± 0.004 0.847 ± 0.017 0.681 ± 0.084 0.914 ± 0.028 0.51
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。