論文の概要、ライセンス

# (参考訳) SAINT:Row AttentionとContrastive Pre-Trainingによる語彙データのためのニューラルネットワークの改良 [全文訳有]

SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training ( http://arxiv.org/abs/2106.01342v1 )

ライセンス: CC BY 4.0
Gowthami Somepalli, Micah Goldblum, Avi Schwarzschild, C. Bayan Bruss, Tom Goldstein(参考訳) タブラルデータは、不正検出からゲノム学、医療に至るまで、機械学習の多くの影響の高い応用を支えている。 勾配上昇や無作為林などの表層問題に対する古典的なアプローチは、実践者によって広く用いられている。 しかし、近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 テーブル型データ問題を解決するために,ハイブリッドなディープラーニングアプローチを考案する。 提案手法である saint は行と列の両方に注意を払っており,拡張埋め込みメソッドも備えている。 また,ラベルの不足時に使用するコントラスト型自己教師付き事前学習法についても検討した。 SAINTは、従来のディープラーニングメソッドよりもパフォーマンスを継続的に改善し、XGBoost、CatBoost、LightGBMなど、さまざまなベンチマークタスクにおいて、勾配向上メソッドよりもパフォーマンスが向上している。

Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. We devise a hybrid deep learning approach to solving tabular data problems. Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. We also study a new contrastive self-supervised pre-training method for use when labels are scarce. SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks.
公開日: Wed, 2 Jun 2021 17:51:05 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
2 ] G L . 2 ] G L。 0.81
s c [ 1 v 2 4 3 1 0 sc [ 1 v 2 4 3 1 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
SAINT: Improved Neural Networks for Tabular Data SAINT: 語彙データのためのニューラルネットワークの改良 0.68
via Row Attention and Contrastive Pre-Training Row Attention と Contrastive Pre-Training を通じて 0.69
Gowthami Somepalli Gowthami Somepalli 0.85
Department of Computer Science University of Maryland, College Park 計算機科学専攻 メリーランド大学 カレッジパーク 0.54
gowthami@umd.edu gowthami@umd.edu 0.78
Micah Goldblum ミカ・ゴールドブラム 0.49
Department of Computer Science University of Maryland, College Park 計算機科学専攻 メリーランド大学 カレッジパーク 0.54
goldblum@umd.edu goldblum@umd.edu 0.78
Avi Schwarzschild Avi Schwarzschild 0.85
Department of Mathematics University of Maryland, College Park 数学科 メリーランド大学 カレッジパーク 0.46
avi1@umd.edu avi1@umd.edu 0.67
C. Bayan Bruss C. Bayan Bruss 0.94
Capital One Center for Machine Learning 資本1 機械学習センター 0.61
bayan.bruss@capitalo ne.com bayan.bruss@capitalo ne.com 0.59
Tom Goldstein トム・ゴールドスタイン 0.54
Department of Computer Science University of Maryland, College Park 計算機科学専攻 メリーランド大学 カレッジパーク 0.54
tomg@umd.edu tomg@umd.edu 0.78
Abstract Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. 概要 タブラルデータは、不正検出からゲノム学、医療に至るまで、機械学習の多くの影響の高い応用を支えている。 0.45
Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. 勾配上昇や無作為林などの表層問題に対する古典的なアプローチは、実践者によって広く用いられている。
訳抜け防止モード: 勾配増進や無作為林などの表層問題に対する古典的アプローチ 実践者が広く利用しています
0.75
However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. しかし、近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 0.56
We devise a hybrid deep learning approach to solving tabular data problems. テーブル型データ問題を解決するために,ハイブリッドなディープラーニングアプローチを考案する。 0.58
Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. 提案手法である saint は行と列の両方に注意を払っており,拡張埋め込みメソッドも備えている。 0.65
We also study a new contrastive self-supervised pre-training method for use when labels are scarce. また,ラベルの不足時に使用するコントラスト型自己教師付き事前学習法についても検討した。
訳抜け防止モード: 新しい対照的な自己も研究し -前編- ラベルの不足時に使用するトレーニング方法。
0.55
SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks. SAINTは、従来のディープラーニングメソッドよりもパフォーマンスを継続的に改善し、XGBoost、CatBoost、LightGBMなど、さまざまなベンチマークタスクにおいて、勾配向上メソッドよりもパフォーマンスが向上している。 0.62
1 Introduction While machine learning for image and language processing has seen major advances over the last decade, many critical industries, including financial services, health care, and logistics, rely heavily on data in structured table format. 1 はじめに 画像と言語処理のための機械学習は、過去10年間で大きな進歩を遂げてきたが、金融サービス、ヘルスケア、物流など多くの重要な産業は、構造化テーブル形式のデータに大きく依存している。 0.69
Tabular data is unique in several ways that have prevented it from benefiting from the impressive success of deep learning in vision and language. タブラルデータは、視覚と言語における深い学習の成功から利益を得るのを妨げている、いくつかの点でユニークです。
訳抜け防止モード: タブラルデータはいくつかの点でユニークです 視覚と言語における深い学習の成功から 利益を得るのを防ぎました
0.79
First, tabular data often contain heterogeneous features that represent a mixture of continuous, categorical, and ordinal values, and these values can be independent or correlated. まず、表データは連続値、カテゴリー値、順序値の混合を表す不均質な特徴を含み、それらの値は独立あるいは相関することができる。 0.72
Second, there is no inherent positional information in tabular data, meaning that the order of columns is arbitrary. 第二に、表データに固有の位置情報は存在せず、列の順番は任意である。 0.78
This differs from text, where tokens are always discrete, and ordering impacts semantic meaning. これは、トークンが常に離散しているテキストと異なり、順序付けは意味意味に影響を及ぼす。 0.50
It also differs from images, where pixels are typically continuous, and nearby pixels are correlated. また、ピクセルが通常連続的であり、近傍のピクセルが相関している画像とは異なる。 0.67
Tabular models must handle features from multiple discrete and continuous distributions, and they must discover correlations without relying on the positional information. 表モデルは複数の離散分布と連続分布の特徴を扱い、位置情報に依存することなく相関関係を発見する必要がある。 0.77
Sufficiently powerful deep learning systems for tabular data have the potential to improve performance beyond what is achieved by classical methods, like linear classifiers and random forests. 表データのための十分強力なディープラーニングシステムは、線形分類器やランダムフォレストなど、古典的な方法によって達成されるよりもパフォーマンスを向上させる可能性を秘めている。
訳抜け防止モード: 表データのための十分強力な深層学習システムは、その可能性を秘めている 線形分類器やランダムフォレストのような古典的手法によって達成される以上の性能を向上させる。
0.62
Furthermore, without performant deep learning models for さらに、高性能なディープラーニングモデルなしでは 0.58
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
tabular data, we lack the ability to exploit compositionality, end-to-end multi-task models, fusion with multiple modalities (e g image and text), and representation learning. 表形式のデータでは、構成性、エンドツーエンドのマルチタスクモデル、複数のモーダル(例えば画像やテキスト)との融合、表現学習を活用できない。 0.73
We introduce SAINT, the Self-Attention and Intersample Attention Transformer, a specialized architecture for learning with tabular data. 本稿では,表データを用いた学習のための特殊なアーキテクチャであるstent,self-attention and intersample attention transformerを提案する。
訳抜け防止モード: SAINT, the Self - Attention and Intersample Attention Transformerを紹介する。 表形式のデータで学ぶための特殊なアーキテクチャ。
0.67
SAINT leverages several mechanisms to overcome the difficulties of training on tabular data. SAINTは、表データのトレーニングの難しさを克服するために、いくつかのメカニズムを活用する。 0.48
SAINT projects all features – categorical and continuous – into a combined dense vector space. SAINTはすべての特徴(分類的かつ連続的)を高密度なベクトル空間に射影する。 0.59
These projected values are passed as tokens into a transformer encoder which uses attention in the following two ways. これらの投影された値は、以下の2つの方法で注意を向けるトランスエンコーダにトークンとして渡される。 0.65
First, there is “self-attention,” which attends to individual features within each data sample. まず “self-attention” があり、各データサンプル内の個々の機能に対応する。 0.83
Second, we propose a novel “intersample attention,” which enhances the classification of a row (i.e., a data sample) by relating it to other rows in the table. 第2に,テーブル内の他の行と関連付けることで,行(すなわちデータサンプル)の分類を強化した,新たな“サンプル間注意”を提案する。 0.77
Intersample attention is akin to a nearest-neighbor classification, where the distance metric is learned end-to-end rather than fixed. 間距離の注意は最も近い隣の分類に似ており、距離の計量は固定ではなくエンドツーエンドで学習される。 0.58
In addition to this hybrid attention mechanism, we also leverage self-supervised contrastive pre-training to boost performance for semi-supervised problems. このハイブリッドアテンション機構に加えて,自己教師付きコントラストプレトレーニングを活用し,半教師付き問題の性能を向上させる。 0.55
We provide comparisons of SAINT to a wide variety of deep tabular architectures and commonly used tree-based methods using a diverse battery of datasets. SAINTを多種多様な深層表構造と比較し,多種多様なデータセットを用いた木に基づく手法を提案する。 0.73
We observe that SAINT, on average, outperforms all other methods on supervised and semi-supervised tasks. SAINTは、教師付きタスクや半教師付きタスクにおいて、平均して他のメソッドよりも優れています。 0.33
More importantly, SAINT often out-performs boosted trees (including XGBoost [4], CatBoost [10], and LightGBM [22]), which have long been an industry favorite for complex tabular datasets. さらに重要なのは、SAINTが多くの場合、複雑な表形式のデータセットで長年好まれてきた木(XGBoost [4]、CatBoost [10]、LightGBM [22]など)を上回っていることです。 0.68
Finally, we visualize the attention matrices produced by our models to gain insights into how they behave. 最後に,モデルが生成する注意行列を視覚化し,その動作に関する洞察を得る。 0.69
2 Related Work Classical Models The most widely adopted approaches for supervised and semi-supervised learning on tabular datasets eschew neural models due to their black-box nature and high compute requirements. 2 関連作業 古典的モデル ブラックボックスの性質と高い計算要求のため、グラフデータセットで教師付きおよび半教師付き学習を行うための最も広く採用されているアプローチ。 0.69
When one has reasonable expectations of linear relationships, a variety of modeling approaches are available [28, 37, 44, 45]. 線形関係に対する合理的な期待がある場合、様々なモデリングアプローチが利用可能である [28, 37, 44, 45]。 0.85
In more complex settings, non-parametric tree-based models are used. より複雑な設定では、非パラメトリックツリーベースモデルが使用される。 0.63
Commonly used tools such as XGBoost [4], CatBoost [10], and LightGBM [22] provide several benefits such as interpretability, the ability to handle a variety of feature types including null values, as well as performance in both high and low data regimes. XGBoost [4]、CatBoost [10]、LightGBM [22]といった一般的なツールでは、解釈可能性、null値を含むさまざまな機能タイプを扱う能力、ハイデータとローデータの両方でのパフォーマンスなど、いくつかのメリットがあります。 0.68
Deep Tabular Models While classical methods are still the industry favorite, some recent work brings deep learning to the tabular domain. 深層表型モデル 古典的手法はいまだに業界で好まれているが、最近の研究によって深層学習が表型ドメインにもたらされている。 0.58
For example, TabNet [1] uses neural networks to mimic decision trees by placing importance on only a few features at each layer. 例えば、TabNet [1]はニューラルネットワークを使用して決定木を模倣する。
訳抜け防止モード: 例えば、TabNet [1 ] はニューラルネットワークを使用する 決定木を模倣する 各層にいくつかの機能だけを 重要視することで
0.86
The attention layers in that model do not use the regular dot-product self-attention common in transformer-based models, rather there is a type of sparse layer that allows only certain features to pass through. そのモデルのアテンション層は、トランスフォーマーベースのモデルで一般的である通常のドット生成セルフアテンションを使用しない。
訳抜け防止モード: そのモデルの注意層は、変圧器ベースのモデルで一般的な、通常のドット、製品自己、注意を使わない。 むしろ、特定の機能しか通過できないスパース層があります。
0.65
Yoon et al [49] propose VIME, which employs MLPs in a technique for pre-training based on denoising. Yoonら[49]が提案するVIMEは, denoisingに基づく事前学習技術としてMPPを使用している。 0.69
TABERT [48], a more elaborate neural approach inspired by the large language transformer model BERT [9], is trained on semi-structured test data to perform language-specific tasks. TABERT [48]は、大きな言語トランスフォーマーモデルBERT [9]にインスパイアされたより精巧なニューラルネットワークであり、言語固有のタスクを実行するための半構造化テストデータに基づいて訓練されている。 0.63
Several other studies utilize tabular data, but their problem settings are outside of our scope [3, 21, 31, 32, 35]. 他のいくつかの研究では表形式のデータを利用しているが、その問題設定はスコープ外である[3, 21, 31, 32, 35]。
訳抜け防止モード: 他のいくつかの研究は表型データを利用している。 しかし 問題設定は 範囲外です [3, 21, 31, 32, 35]
0.77
Transformer models for more general tabular data include TabTransformer [18], which uses a transformer encoder to learn contextual embeddings only on categorical features. より一般的な表データのためのトランスフォーマモデルにはtabtransformer [18]がある。
訳抜け防止モード: より一般的な表データ用のトランスフォーマモデルには、tabtransformer [18 ]、 トランスフォーマーエンコーダを使用して,カテゴリの特徴のみにコンテキスト埋め込みを学習する。
0.71
The continuous features are concatenated to the embedded features and fed to an MLP. 連続した機能は組み込み機能と結合され、MLPに供給される。 0.79
The main issue with this model is that continuous data do not go through the self-attention block. このモデルの主な問題は、連続したデータが自己注意ブロックを通過しないことだ。 0.80
That means any information about correlations between categorical and continuous features is lost. つまり、カテゴリと継続的特徴の相関に関する情報は失われる。 0.73
In our model, we address that issue by projecting continuous features and categorical features to the higher dimensional embedding space and passing them both through the transformer blocks. このモデルでは, 連続的特徴とカテゴリ的特徴を高次元埋め込み空間に投影し, 両者をトランスフォーマーブロックに渡すことで, この問題に対処する。 0.78
In addition, we propose a new type of attention to explicitly allow data points to attend to each other to get better representations. さらに,データポイント同士の参加を明示的に許可し,表現性を向上する新たなタイプの注意方法を提案する。 0.76
Axial Attention Ho et al [17] are the first to propose row and column attention in the context of localized attention in 2-dimensional inputs (like images) in their Axial Transformer. Axial Attention Ho et al [17]は、Axial Transformer内の2次元入力(画像など)における局所的な注意の文脈において、最初に行と列の注意を提案する。 0.73
This is where for a given pixel, the attention is computed only on the pixels that are on the same row and column, rather than using all the pixels in the image. これは、与えられたピクセルに対して、画像中のすべてのピクセルを使用するのではなく、同じ行と列にあるピクセルに対してのみ注意が計算される場所である。 0.69
The MSA Transformer [33] extends this work to protein sequences and applies both column and row attention across similar rows (tied row attention). MSA Transformer [33]は、この研究をタンパク質配列に拡張し、カラムと行の両方の注意を類似の行にわたって適用する。 0.74
TABBIE [20] is an adaptation of axial attention that applies self-attention to rows and columns separately, then averages the representations and passes them as input to the next layer. TABBIE[20]は軸方向の注意を適応させ、行と列を別々に適用し、その表現を平均化し、次の層に入力として渡す。 0.70
In all these works, different features from the same data point communicate with each other and with the same feature from a whole batch of data. これらすべての作業において、同じデータポイントから異なるフィーチャが相互に通信し、同じ特徴が一括データから得られる。 0.79
Our approach, intersample attention, is hierarchical in nature; first features of a given data point interact with each other, then data points interact with each other using entire rows/samples. 我々のアプローチは本質的に階層的であり、与えられたデータポイントの最初の特徴が互いに相互作用し、次にデータポイントが行やサンプル全体を使って相互に相互作用する。 0.74
2 2 0.85
英語(論文から抽出)日本語訳スコア
In a similar vein, Graph Attention Networks (GAT) [42] seek to compute attention over neighbors on a graph, thereby learning which neighbor’s information is most relevant to a given node’s prediction. グラフアテンションネットワーク(gat) [42]は、グラフ上の隣人のアテンションを計算し、それによって、どの隣人の情報が特定のノードの予測に最も関連しているかを学習する。 0.73
One way to view our intersample attention is as a GAT on a complete graph where all tabular rows are connected to all other rows. サンプル間注目の1つの方法は、すべての表の行が他のすべての行に接続される完全なグラフ上のGATである。 0.70
Yang et al [47] explore hierarchical attention for the task of document classification where attention is computed between words in a given sentence and then between the sentences, but they did not attempt to compute the attention between entire documents themselves. Yang et al [47] は、ある文中の単語と文間の注意が計算される文書分類のタスクに対して階層的な注意を払っているが、文書全体間での注意を計算しようとはしなかった。 0.72
Self-Supervised Learning Self-supervision via a ‘pretext task’ on unlabeled data coupled with finetuning on labeled data is widely used for improving model performance in language and computer vision. ラベルなしデータの'pretext task'による自己教師あり学習自己スーパービジョンとラベル付きデータの微調整は、言語とコンピュータビジョンのモデルパフォーマンスを改善するために広く使われている。 0.66
Some of the tasks previously used for self-supervision on tabular data include masking, denoising, and replaced token detection. 以前は表データに対する自己スーパービジョンに使用されていたタスクには、マスキング、デノイジング、トークン検出の置き換えなどがある。 0.53
Masking (or Masked Language Modeling(MLM)) is when individual features are masked and the model’s objective is to impute their value [1, 18, 32]. masking(または masked language modeling(mlm))は、個々の機能がマスクされ、モデルの目的は、[1, 18, 32]の値をインデュートすることである。 0.83
Denoising injects various types of noise into the data, and the objective there is to recover the original values [43, 49]. デノイングは様々な種類のノイズをデータに注入し、目的は元の値[43,49]を復元することである。 0.80
Replaced token detection (RTD) inserts random values into a given feature vector and seeks to detect the location of these replacements [18, 20]. 置換トークン検出(RTD)は、所定の特徴ベクトルにランダムな値を挿入し、これらの置換の位置を検出する[18, 20]。 0.82
Contrastive pre-training, where the distance between two views of the same point is minimized while maximizing the distance between two different points [5, 12, 15], is another pretext task that applies to tabular data. 2つの異なる点 [5, 12, 15] の間の距離を最大化しながら、同じ点の2つのビュー間の距離を最小化するコントラストプレトレーニングは、表データに適用される別のプリテキストタスクである。 0.78
In this paper, to the best of our knowledge, we are the first to adopt contrastive learning for tabular data. 本稿では,本論文の知識を最大限に活用するために,表型データに対してコントラスト学習を初めて導入する。 0.74
We couple this strategy with denoising to perform pre-training on a plethora of datasets with varied volumes of labeled data, and we show that our method outperforms traditional boosting methods. 我々はこの戦略を,ラベル付きデータの多量のデータセットに対して事前学習を行うことで,従来のブースティング手法よりも優れていることを示す。 0.71
3 Self-Attention and Intersample Attention Transformer (SAINT) 3 自己注意・相互注意変換器(SAINT) 0.71
Figure 1: The SAINT architecture, including pre-training and training pipelines. 図1: 事前トレーニングとトレーニングパイプラインを含むSAINTアーキテクチャ。 0.65
(a) Inspired by [41], we use L layers with 2 attention blocks each, one self-attention block, and one of our novel intersample attention blocks that computes attention across samples (see Section 3.2). a) [41]にインスパイアされたL層は,それぞれ2つのアテンションブロック,1つの自己アテンションブロック,そしてサンプル間でのアテンションを計算する新しいインテンションブロックの1つである(第3節参照)。 0.61
(b) For pre-training, we minimize contrastive and denoising losses between a given data point and its views generated by CutMix and mixup (Section 4). (b)事前トレーニングでは、所定のデータポイントとCutMixとmixupで生成されたビューの間の損失を最小限に抑える(Section 4)。 0.81
During finetuning/regular training, data passes through an embedding layer and then the SAINT model. 微調整/正規トレーニングの間、データは埋め込み層を通過し、SAINTモデルになります。 0.62
We take the contextual embeddings from SAINT and pass only the embedding correspond to the CLS token through an MLP to obtain the final prediction. 我々は、SAINTからコンテキスト埋め込みを取得し、埋め込みのみをMLPを介してCRSトークンに対応させて最終的な予測を得る。 0.66
In this section, we introduce our model, Self-Attention and Intersample Attention Transformer (SAINT), and explain in detail its various components. 本稿では,本モデルである自己注意・相互注意変換器(SAINT)について紹介し,その各種成分について詳述する。 0.73
Suppose D = {xi, yi}m i=1 is a tabular dataset with m points, where each xi is an n-dimensional feature vector, and yi is a label or target variable. D = {xi, yi}m i=1 を m 個の点を持つ表付きデータセットとし、各 xi を n 次元特徴ベクトル、yi をラベルまたは対象変数とする。 0.84
Similar to BERT [9], we append a [CLS] token {1} with a learned embedding to each data sample. BERT [9] と同様に、学習した各データサンプルに埋め込みを持つ[CLS]トークン {1} を付加します。 0.82
Let xi = [[CLS], f ] be a single i , and let E be the embedding layer that embeds data-point with categorical or continuous features f xi = [[CLS], f ] を単一の i とし、E をカテゴリ的または連続的な特徴 f でデータポイントを埋め込む埋め込み層とする。 0.73
{2} , f i , .., f {2} , fi F... 0.64
{n} i i (複数形 is) 0.33
{j} i i (複数形 is) 0.21
3 (a)Mixup in latent spaceInfoNCElossCutM ix in real spaceContrastiveStac k of MLPs, onefor each featureexcept for CLSMSE/CEDenoisingSE LF SUPERVISED PRE-TRAININGSUPERVIS ED / FINETUNING(b)Multi-H eadSelf-Attention Add & NormMulti-HeadInters ampleAttention FeedForwardAdd & NormAdd & NormFeedForwardAdd & NormSelf-Attentionbl ockIntersampleAttent ion blockEmbedded inputs of a batchContextual representations of a batchProjection HeadProjection HeadEmbeddinglayerSA INTMLP on..Cross-Entropy(Cl assification)/MSE (Regression)Embeddin glayerSAINT 3 (a)Mixup in latent spaceInfoNCElossCutM ix in real spaceContrastiveStac k of MLPs, onefor each featureexcept for CLSMSE/CEDenoisingSE LF SUPERVISED PRE-TRAININGSUPERVIS ED / FINETUNING(b)Multi-H eadSelf-Attention Add & NormMulti-HeadInters ampleAttention FeedForwardAdd & NormAdd & NormFeedForwardAdd & NormSelf-Attentionbl ockIntersampleAttent ion blockEmbedded inputs of a batchContextual representations of a batchProjection HeadProjection HeadEmbeddinglayerSA INTMLP on..Cross-Entropy(Cl assification)/MSE (Regression)Embeddin glayerSAINT 0.83
英語(論文から抽出)日本語訳スコア
each feature into a d-dimensional space. それぞれの特徴を d 次元空間に分割する。 0.63
Note that E may use different embedding functions for different features. 注意すべき点は、Eは異なる機能に異なる埋め込み関数を使うかもしれないことである。 0.49
For a given xi ∈ R(n+1), we get E(xi) ∈ R(n+1)×d. 与えられた xi ∈ R(n+1) に対して、E(xi) ∈ R(n+1)×d を得る。 0.85
Encoding the Data In language models, all tokens are embedded using the same procedure. 言語モデルにデータをエンコーディングすると、すべてのトークンは同じ手順で埋め込まれる。 0.80
However, in the tabular domain, different features can come from distinct distributions, necessitating a heterogeneous embedding approach. しかし、表的なドメインでは、異なる特徴は異なる分布から生じ、異質な埋め込みアプローチが必要となる。 0.68
Note that tabular data can contain multiple categorical features which may use the same set of tokens. 表データには、同じトークンセットを使用する可能性のある複数のカテゴリ機能が含まれている点に注意が必要だ。 0.51
Unless it is known that common tokens possess identical relationships within multiple columns, it is important to embed these columns independently. 共通トークンが複数の列内で同一の関係を持つことが分かっていない限り、これらの列を独立に埋め込むことは重要である。 0.61
Unlike the embedding of TabTransformer[18], which uses attention to embed only categorical features, we propose also projecting continuous features into a d−dimensional space before passing their embedding through the transformer encoder. 分類的特徴のみを埋め込みに注意するtabtransformer[18]の埋め込みとは異なり、トランスフォーマエンコーダに埋め込む前にd-次元空間に連続的な特徴を投影することも提案する。 0.84
To this end, we use a separate single fully-connected layer with a ReLU nonlinearity for each continuous feature, thus projecting the 1−dimensional input into d−dimensional space. この目的のために、1次元の入力をd-次元空間に投影するために、ReLUの非線形性を持つ独立した1つの完全連結層を用いる。 0.69
With this simple trick alone, we significantly improve the performance of the TabTransformer model as discussed in Section 5.1. この単純なトリックだけで、セクション5.1で述べたように、TabTransformerモデルの性能を大幅に改善します。 0.68
An additional discussion concerning positional encodings can be found in Appendix C. 位置エンコーディングに関するさらなる議論は、Appendix Cで見ることができる。 0.73
3.1 Architecture 3.1 アーキテクチャ 0.63
SAINT is inspired by the transformer encoder of Vaswani et al [41], designed for natural language, where the model takes in a sequence of feature embeddings and outputs contextual representations of the same dimension. SAINTは、自然言語用に設計されたVaswani et al[41]のトランスフォーマーエンコーダにインスパイアされ、モデルが特徴埋め込みのシーケンスを取り、同じ次元のコンテキスト表現を出力する。 0.73
A graphical overview of SAINT is presented in Figure 1(a). saintの概要図は図1(a)に示されています。 0.61
SAINT is composed of a stack of L identical stages. SAINTはLと同じステージのスタックで構成されている。 0.68
Each stage consists of one self-attention transformer block and one intersample attention transformer block. 各ステージは、1つの自己注意変圧器ブロックと1つのサンプル間注意変圧器ブロックからなる。 0.58
The self-attention transformer block is identical to the encoder from [41]. 自己保持変圧器ブロックは[41]からエンコーダと同一である。 0.78
It has a multi-head self-attention layer (MSA) (with h heads), followed by two fully-connected feed-forward (FF) layers with a GELU non-linearity [16]. マルチヘッド自己注意層(MSA)(hヘッド)と、GELU非線形性[16]を備えた2つの完全接続フィードフォワード層(FF)を備える。 0.73
Each layer has a skip connection [14] and layer normalization (LN) [2]. 各層はスキップ接続[14]と層正規化(LN)[2]を有する。 0.73
The intersample attention transformer block is similar to the self-attention transformer block, except that the self-attention layer is replaced by an intersample attention layer (MISA). インターサンプルアテンショントランスバータブロックは、自己アテンション層がインターサンプルアテンション層(MISA)に置き換えられることを除いて、自己アテンショントランスバータブロックと似ている。 0.65
The details of the intersample attention layer are presented in the following subsection. サンプル間注意層の詳細は、以下の節で示される。 0.65
The SAINT pipeline, with a single stage (L = 1) and a batch of b inputs, is described by the following equations. 単一のステージ (L = 1) と b 個の入力からなるSAINTパイプラインは、以下の方程式で記述される。 0.71
We denote multi-head self-attention by MSA, multi-head intersample attention by MISA, feed-forward layers by FF, and layer norm by LN: MSAによるマルチヘッド自己注意、MISAによるマルチヘッドインターサンプリング、FFによるフィードフォワード層、LNによるレイヤノルムを示す。 0.68
z(1) i = LN(MSA(E(xi))) + E(xi) i = LN(MISA({z(2) i }b z(3) z(1) i = LN(MSA(E(xi))) + E(xi) i = LN(MISA({z(2) i }b z(3) 0.85
i=1)) + z(2) i=1)) + z(2) 0.96
i i = LN(FF1(z(1) z(2) ri = LN(FF2(z(3) 私は i = LN(FF1(z(1) z(2) ri = LN(FF2(z(3)) 0.74
i i )) + z(1) )) + z(3) 私は 私は ) + z(1) ) + z(3) 0.58
i i (1) (2) 私は 私は (1) (2) 0.64
where ri is SAINT’s contextual representation output corresponding to data point xi. ここで ri は、データポイントxi に対応する SAINT のコンテキスト表現出力です。 0.81
This contextual embedding can be used in downstream tasks such as self-supervision or classification. このコンテキスト埋め込みは、セルフスーパービジョンや分類のような下流タスクで使用できる。 0.52
3.2 Intersample attention 3.2 サンプル間注意 0.60
We introduce intersample attention (a type of row attention) where the attention is computed across different data points (rows of a tabular data matrix) in a given batch rather than just the features of a single data point. 本稿では,1つのデータポイントの特徴だけでなく,各バッチ内の異なるデータポイント(表型データマトリックスの行)にまたがって注意が計算される,サンプル間注意(行注意の一種)を導入する。 0.80
Specifically, we concatenated the embeddings of each feature for a single data point, then compute attention over samples (rather than features). 具体的には、各機能の埋め込みをひとつのデータポイントに結合し、(機能ではなく)サンプルに対する注意を計算します。 0.71
This enables us to improve the representation of a given point by inspecting other points. これにより、与えられた点の表現を他の点を検査することで改善することができる。 0.61
When a feature is missing or noisy in one row, intersample attention enables SAINT to borrow the corresponding features from other similar data samples in the batch. ある機能が1行に欠けている、あるいはノイズがある場合、SAINTは、バッチ内の他の類似データサンプルから対応する機能を借りることができる。 0.70
An illustration of how intersample attention is performed in a single head is shown in Figure 2 and the pseudo-code is presented in Algorithm 1. 図2では、単一ヘッドにおけるサンプル間注意がどのように実行されるかを図示し、アルゴリズム1では擬似コードを示す。 0.72
Unlike the row attention used in [7, 17, 20, 33], intersample attention allows all features from different samples to communicate with each other. 7, 17, 20, 33]で使われる行の注意とは異なり、サンプル間注意は異なるサンプルからのすべての機能同士のコミュニケーションを可能にする。 0.78
In our experiments, we show that this ability boosts performance appreciably. 実験では,この能力によって性能が向上することを示した。 0.68
In the multi-head case, instead of projecting q, k, v to a given dimension d, we project them to d/h where h is the number of heads. マルチヘッドの場合、与えられた次元 d に q, k, v を投影するのではなく、h がヘッド数である d/h に投影する。
訳抜け防止モード: multi-head ケースでは、代わりに 与えられた次元 d に q, k, v を投影する h が頭の数である d / h に投影します
0.81
Then we concatenate all the updated value vectors, vi, to get back a vector of length d. そして、すべての更新された値ベクトルviを結合して長さdのベクトルを返します。 0.82
4 4 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: Intersample attention on a batch of 3 points. 図2: 3ポイントのバッチに対するサンプル間注意。 0.72
In this plot, d is the size of value vectors vi. このプロットでは、d は値ベクトル vi のサイズである。 0.72
See Section 3.2 for details. 詳細は3.2節を参照。 0.61
Algorithm 1 PyTorch-style pseudo-code for intersample attention. アルゴリズム1 PyTorch-style pseudo-code for intersample attention 0.79
For simplicity, we describe just one head and assume the value vector dimension is same as the input embedding dimension. 単純性のために、1つの頭部だけを記述し、値ベクトル次元が入力埋め込み次元と同じであると仮定する。 0.69
# b: batch size , n: number of features , d: embedding dimension # W_q , # mm : matrix - matrix multiplication def self_attention (x ): #b:バッチサイズ , n: 機能数 , d: 埋め込み次元 # w_q , # mm : matrix - matrix multiplication def self_attention (x) 0.84
W_k , W_v are weight matrices of dimension dxd W_k, W_vは次元dxdの重量行列である 0.62
# x is bxnxd q , k , v = mm (W_q ,x), mm (W_k ,x), mm (W_v ,x) #q ,k ,v are bxnxd attn = softmax ( mm (q , np . x は bxnxd q , k , v = mm (W_q ,x), mm (W_k ,x), mm (W_v ,x) #q ,k ,v は bxnxd attn = softmax (mm (q ,np ) である。 0.89
transpose (k , (0 , 2, 1)))/ sqrt (d )) # bxnxn out = mm ( attn , v) # out is bxnxd return out transpose (k , (0 , 2, 1))/ sqrt (d ))) # bxnxn out = mm ( attn , v) # out is bxnxd return out 0.84
def intersample_attentio n (x ): def intersample_attentio n (x) 0.83
# x is bxnxd b ,n ,d = x. shape # as mentioned above x = reshape (x , (1 ,b ,n*d )) # reshape x to 1 xbx (n*d) x = self_attention (x) # the output x is 1 xbx (n*d) out = reshape (x ,(b ,n ,d )) # out is bxnxd return out #x is bxnxd b ,n ,d = x. shape # as above x = reshape (x , (1 ,b ,n*d )) # reshape x to 1 xbx (n*d) x = self_attention (x) # 出力xは 1 xbx (n*d) out = reshape (x ,(b ,n ,d ) # out is bxnxd return out 0.83
4 Pre-training & Finetuning 4 事前学習と微調整 0.62
Contrastive learning, in which models are pre-trained to be invariant to reordering, cropping, or other label-preserving “views” of the data [5, 12, 15, 32, 43], is a powerful tool in the vision and language domains that has never (to our knowledge) been applied to tabular data. 対照的に、モデルがデータ[5, 12, 15, 32, 43]のリオーダー、トリミング、その他のラベルを保存する“ビュー”に不変であるように事前訓練された対照的な学習は、表のデータに適用されたことのないビジョンや言語領域において強力なツールである。 0.75
We present a contrastive pipeline for tabular data, a visual description of which is shown in Figure 1. 図1に示すように、表データに対する対照的なパイプラインを示す。 0.54
Existing self-supervised objectives for tabular data include denoising [43], a variation of which was used by VIME [49], masking, and replaced token detection as used by TabTransformer [18]. テーブルデータのための既存の自己教師付き目的には、 vime [49] が使用したデノイジング [43] 、マスキング、tabtransformer [18] が使用するトークン検出の置き換えなどがある。 0.74
We find that, while these methods are effective, superior results are achieved by contrastive learning. これらの手法は有効であるが, 比較学習により優れた結果が得られることがわかった。 0.68
Generating augmentations Standard contrastive methods in vision craft different “views” of images using crops and flips. 視覚の標準的なコントラスト的手法は、作物とフリップを使って画像の異なる“ビュー”を作る。
訳抜け防止モード: 画像の「ビュー」が異なる視覚クラフトにおける標準コントラスト法の生成 作物とフリップを使います
0.74
It is difficult to craft invariance transforms for tabular data. 表データの不変変換を作成することは困難である。 0.68
The authors of VIME [49] use mixup in the non-embedded space as a data augmentation method, but this is limited to continuous data. VIME [49] の著者はデータ拡張手法として非埋め込み空間でのミックスアップを利用するが、これは連続データに限られる。 0.83
We instead use CutMix [50] to augment samples in the input space and we use mixup [51] in the embedding space. 代わりに、入力空間のサンプルを増やすためにCutMix[50]を使用し、埋め込み空間でmixup[51]を使用します。 0.85
These two augmentations combined yield a challenging and effective self-supervision task. これら2つの拡張は、挑戦的で効果的な自己スーパービジョンタスクをもたらす。 0.38
Assume that only l of m data points are labeled. m のデータポイントの l のみがラベル付けされていると仮定する。 0.59
We denote the embedding layer by E, the SAINT network by S, and 2 projection heads as g1(·) and g2(·). 埋め込み層を e で、saint network を s で、2つの射影ヘッドを g1(·) と g2(·) で表す。 0.66
The CutMix augmentation probability is denoted pcutmix and the mixup parameter is α. CutMix増大確率はpcutmixと表され、混合パラメータはαである。 0.73
Given point xi, the original embedding is pi = E(xi), while the augmented representation is generated as follows: (3) (4) 与えられた点 xi に対して、元の埋め込みは pi = e(xi) であり、拡張表現は次のように生成される: (3) (4) 0.76
i = xi (cid:12) m + xa (cid:12) (1 − m) x(cid:48) i = α ∗ E(x(cid:48) p(cid:48) i = xi (cid:12) m + xa (cid:12) (1 − m) x(cid:48) i = α ∗ E(x(cid:48) p(cid:48) 0.92
CutMix in raw data space mixup in embedding space 埋め込み空間における生データ空間混合におけるCutMix 0.71
i) + (1 − α) ∗ E(x(cid:48) b) i) + (1 − α) ∗ E(x(cid:48) b) 0.94
5 CONCATCONCATCONCATLa yerNorm + Residual 5 CONCATCONCATCATLayer Norm + Residual 0.84
英語(論文から抽出)日本語訳スコア
where xa, xb are random samples from the current batch, x(cid:48) b is the CutMix version of xb, m is the binary mask vector sampled from a Bernoulli distribution with probability pcutmix, and α is the mixup parameter. xa, xb が現在のバッチからのランダムなサンプルである場合、x(cid:48) b は xb の CutMix バージョンであり、m は確率 pcutmix のベルヌーイ分布からサンプリングされた二項マスクベクトルであり、α は混合パラメータである。 0.83
Note that we first obtain a CutMix version of every data point in a batch by randomly selecting a partner to mix with. 最初に、バッチ内の各データポイントのCutMixバージョンを取得するには、パートナーをランダムに選択する必要がある。 0.72
We then embed the samples and choose new partners before performing mixup. 次にサンプルを埋め込み、mixupを実行する前に新しいパートナを選択します。 0.59
SAINT and projection heads Now that we have both the clean pi and mixed p(cid:48) i embeddings, we pass them through SAINT, then through two projection heads, each consisting of an MLP with one hidden layer and a ReLU. SAINTとプロジェクションヘッド クリーンなpiと混入したp(cid:48)が組み込まれているので、SAINTを通り、2つのプロジェクションヘッドを通り抜けます。
訳抜け防止モード: SAINTとプロジェクションヘッド クリーンなpiと混在したp(cid:48 )が組み込まれています。 SAINTを通り 2つのプロジェクションヘッドを通り抜けます それぞれが、隠れた1つの層とReLUを持つMLPで構成されている。
0.76
The use of a projection head to reduce dimensionality before computing contrastive loss is common in vision [5, 12, 15] and indeed also improves results on tabular data. 対照的な損失を計算する前に次元を減少させる投影ヘッドの使用はビジョン [5,12,15] では一般的であり、表データの結果も改善する。 0.78
Ablation studies and further discussion are available in Appendix E. Loss functions We consider two losses for the pre-training phase. アブレーション研究とさらなる議論は、Appendix E. Loss関数で利用可能である。
訳抜け防止モード: アブレーション研究とさらなる議論は Appendix E. Loss 関数で利用可能である。 トレーニングフェーズの2つの損失について検討する。
0.63
(i) The first is a contrastive loss that pushes the latent representations of two views of the same data point (zi and z(cid:48) i) close together and encourages different points (zi and zj, i (cid:54)= j) to lie far apart. (i) 1つは、同じデータポイント(zi と z(cid:48) i)の2つのビューの遅延表現を押し付け、異なるポイント(zi と zj, i (cid:54)= j)を遠くに置くように促す対照的な損失である。 0.77
For this, we borrow the InfoNCE loss from metric-learning works [5, 30, 36, 46]; (ii) The second loss comes from a denoising task. このために、計量学習作業からInfoNCEの損失を借ります [5, 30, 36, 46]; (ii)第二の損失は、妄想的なタスクから生じます。 0.71
For denoising, we try to predict the original data sample from a noisy view. 注意のために、ノイズの多い視点から元のデータサンプルを予測しようとする。 0.76
Formally, we are given r(cid:48) i and we reconstruct the inputs as x(cid:48)(cid:48) to minimize the difference between the original and the reconstruction.The combined pre-training loss is: (cid:80)m exp(zi · z(cid:48) i/τ ) (cid:123)(cid:122) k=1 exp(zi · z(cid:48) 形式的には、r(cid:48) i が与えられ、入力を x(cid:48)(cid:48) で再構成し、オリジナルとリコンストラクションの違いを最小限に抑える。(cid:80)m exp(zi · z(cid:48) i/τ ) (cid:123)(cid:122) k=1 exp(zi · z(cid:48) である。 0.72
(cid:125) i). (cid:125)i) 0.86
Lj is cross-entropy loss or mean squared where ri = S(pi), r(cid:48) error depending on the jth feature being categorical or continuous. Lj はクロスエントロピー損失または平均二乗であり、ri = S(pi), r(cid:48) の誤差は、カテゴリー的あるいは連続的な jth の特徴に依存する。 0.70
Each MLPj is a single hidden layer perceptron with a ReLU non-linearity. 各MLPjは、ReLU非直線性を持つ単一の隠れ層パーセプトロンである。 0.64
There are n in number, one for each input feature. 数字は n で、各入力機能に 1 がある。 0.68
λpt is a hyper-parameter and τ is temperature parameter and both of these are tuned using validation data. λptは超パラメータであり、τは温度パラメータであり、どちらも検証データを用いて調整される。
訳抜け防止モード: λptはハイパーパラメータであり、τは温度パラメータである どちらも検証データを使って調整されます
0.80
Finetuning Once SAINT is pre-trained on all unlabeled data, we finetune the model on the target prediction task using the l labeled samples. ファインタニング SAINT がラベル付けされていないすべてのデータで事前トレーニングされると、Lラベル付きサンプルを用いてターゲット予測タスク上でモデルを微調整する。 0.60
The pipeline of this step is shown in Figure 1(b). このステップのパイプラインは図1(b)に示されます。 0.70
For a given point xi, we learn the contextual embedding ri. ある点 xi に対して、文脈埋め込み ri を学習する。 0.57
For the final prediction step, we pass the embedding corresponding only to the [CLS] token through a simple MLP with a single hidden layer with ReLU activation to get the final output. 最終予測ステップでは、[CLS]トークンのみに対応する埋め込みを、ReLUアクティベートされた単一の隠蔽層を持つ単純なMLPに渡して最終的な出力を得る。 0.77
We evaluate cross-entropy loss on the outputs for classification tasks and mean squared error for regression tasks. 分類タスクにおける出力のクロスエントロピー損失と回帰タスクにおける平均2乗誤差を評価する。 0.65
Lpre-training = − m(cid:88) (cid:124) Lpre-training = − m(cid:88) (cid:124) 0.76
i), zi = g1(ri), z(cid:48) i), zi = g1(ri), z(cid:48) 0.91
[Lj(MLPj(r(cid:48) [Lj(MLPj(r(cid:48)) 0.87
m(cid:88) (cid:124) m(cid:88)(124) 0.79
i = g2(r(cid:48) i = g2(r(cid:48) 0.88
i = S(p(cid:48) i = S(p(cid:48) 0.96
n(cid:88) Contrastive Loss n(cid:88) コントラスト損失 0.74
Denoising Loss +λpt 絶望的損失 +λpt 0.54
k/τ ) log i=1 k/τ)。 ログ i=1 0.59
(cid:123)(cid:122) (cid:123)(cid:122) 0.75
i i=1 j=1 私は i=1 j=1 0.57
i), xi)] (5) i) xi] (5) 0.70
(cid:125) 5 Experimental Evaluation (cid:125) 5 実験的評価 0.85
We evaluate SAINT on 16 tabular datasets. 我々は16の表付きデータセット上でSAINTを評価した。 0.47
In this section, we discuss variants of SAINT and evaluate them in both supervised and semi-supervised scenarios. 本節では,saintの変種を議論し,教師ありシナリオと半監督シナリオの両方で評価する。 0.56
We also analyze each component of SAINT and perform ablation studies to understand the importance of each component in the model. また、SAINTの各コンポーネントを分析し、モデルにおける各コンポーネントの重要性を理解するためにアブレーション研究を行う。 0.74
Using visualization, we interpret the behavior of attention maps. 可視化を用いて注意マップの挙動を解釈する。 0.82
Datasets We evaluate SAINT on 14 binary classification tasks and 2 multiclass classification tasks. データセット SAINT を14のバイナリ分類タスクと2つのマルチクラス分類タスクで評価する。 0.72
These datasets were chosen because they were previously used to evaluate competing methods [1, 18, 49]. これらのデータセットは、以前競合する手法[1, 18, 49]を評価するために使用されていたため、選択された。
訳抜け防止モード: これらのデータセットが選ばれた理由は 以前は 競合手法の評価に 使われていました [1, 18, 49]
0.69
They are also diverse; the datasets range in size from 200 to 495,141 samples, and from 8 to 784 features, with both categorical and continuous features. データセットのサイズは200から495,141のサンプルで、8から784のフィーチャがあり、分類的特徴と連続的な特徴がある。 0.74
Some datasets are missing data while some are complete and some are well-balanced while others have highly skewed class distributions. データセットの中にはデータがないものもあれば、完全でバランスの取れたものもある。 0.57
Each of these datasets is publicly available from either UCI1 or AutoML.2 Details of these datasets can be found in Appendix B. これらのデータセットはそれぞれ、UCI1またはAutoML.2から公開されており、これらのデータセットの詳細はAppendix Bで見ることができる。 0.55
As the Table 1: Configurations of SAINT. として 表1: SAINTの設定。 0.74
The number of stages is denoted by L, and the number of heads in each attention layer is represented by h. The parameter count is averaged over 14 datasets and is measured for batches of 32 inputs. ステージ数をlで表し、各アテンション層のヘッド数をhで表し、パラメータカウントを平均して14のデータセットを平均し、32の入力のバッチについて測定する。 0.69
Time measures the cost of 100 epochs of training plus inference on the best model, averaged over 14 datasets. タイムは、トレーニングの100エポックスとベストモデルの推論のコストを測定し、平均14以上のデータセットを計測する。 0.63
See Appendix Section C for hardware specifications. ハードウェア仕様についてはAppendix Section Cを参照。 0.73
Param ×1e6 Time (s) 1759 123 144 Param ×1e6 Time (s) 1759 123 144 0.90
Model SAINT-s SAINT-i SAINT Model SAINT-s SAINT-i SAINT 0.65
L h 6 8 8 1 1 8 l h 6 8 8 1 1 8 0.82
91.6 352.7 347.3 91.6 352.7 347.3 0.47
InterSample Attention インターサンプル 注意 0.66
Both Self 1http://archive.ics. uci.edu/ml/datasets. php 2https://automl.chal earn.org/data 両方 自己 1http://archive.ics. uci.edu/ml/datasets. php 2https://automl.chal earn.org/data 0.54
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 2: Mean AUROC scores (in %) for SAINT variants and competitors. 表2:SAINTの変種および競合のAUROCスコア(%)。 0.59
Results are averaged over 5 trials and 14 binary classification datasets. 結果の平均は5回の試行と14のバイナリ分類データセットである。 0.65
The mean is over all 14 binary classification datasets. 平均は14のバイナリ分類データセットすべてである。 0.77
Baseline results are quoted from original papers when possible (denoted with *) and reproduced otherwise. ベースライン結果は、可能であれば(*で記述された)元の論文から引用され、他の場合は再生される。
訳抜け防止モード: ベースラインの結果は、可能であれば元の論文から引用される(*で表される) 再生したのです
0.59
We highlight best result in bold. 大胆に最良の結果を強調します。 0.61
Columns denoted by † are multi-class problems, and we report accuracy rather than AUC. 列は,多クラス問題であり,AUCよりも精度を報告する。 0.58
Dataset size Feature size Model \ Dataset Logistic Reg. dataset size feature size model \ dataset logistic reg。 0.74
Random Forest XGBoost [4] LightGBM [22] CatBoost [10] MLP VIME [49] TabNet [1] TabTransf. Random Forest XGBoost [4] LightGBM [22] CatBoost [10] MLP VIME [49] TabNet [1] TabTransf 0.81
[18] SAINT-s SAINT-i SAINT [18]サンクト-sサント-iサント 0.43
45,211 16 Bank 90.73 89.12 92.96 93.39 90.47 91.47 76.64 91.76 91.34 93.61 92.83 93.3 45,211 16 Bank 90.73 89.12 92.96 93.39 90.47 91.47 76.64 91.76 91.34 93.61 92.83 93.3 0.52
7,043 20 452 226 7,043 20 452 226 0.76
200 783 495,141 200 783 495,141 0.72
49 Blastchar Arrhythmia Arcene 91.59 79.17 81.41 81.05 82.48 90.26 61.03 54.10 86.8 86.88 92.75 91.04 49 Blastchar Arrhythmia Arcene 91.59 79.17 81.41 81.05 82.48 90.26 61.03 54.10 86.8 86.88 92.75 91.04 0.66
82.34 80.63 81.78 83.17 84.77 59.63 50.08 79.61 81.67 84.91 84.46 84.67 82.34 80.63 81.78 83.17 84.77 59.63 50.08 79.61 81.67 84.91 84.46 84.67 0.41
86.22 86.96 81.98 88.73 87.91 58.82 65.3 52.12 70.03 93.46 95.8 94.18 86.22 86.96 81.98 88.73 87.91 58.82 65.3 52.12 70.03 93.46 95.8 94.18 0.41
Forest 84.79 98.80 95.53 93.29 85.36 96.81 75.06 96.37 84.96 99.67 99.45 99.7 Forest 84.79 98.80 95.53 93.29 85.36 96.81 75.06 96.37 84.96 99.67 99.45 99.7 0.43
12,330 17 Shoppers 12,330 17 買い物客 0.65
87.03 89.87 92.51 93.20 93.12 84.71 74.37 91.38 92.70* 92.92 92.29 93.06 87.03 89.87 92.51 93.20 93.12 84.71 74.37 91.38 92.70* 92.92 92.29 93.06 0.43
58,310 147 58,310 147 0.72
60,000 784 60,000 784 0.72
32,561 14 Income Volkert† MNIST† Mean 89.25 92.12 89.52 88.04 91.06 92.31 92.57 90.13 90.73 90.80 84.59 92.08 76.07 88.98 83.88 90.72 90.86 90.60* 91.79 92.59 93.09 91.55 93.13 91.67 32,561 14 Income Volkert† MNIST† Mean 89.25 92.12 89.52 88.04 91.06 92.31 92.57 90.13 90.73 90.80 84.59 92.08 76.07 88.98 83.88 90.72 90.86 90.60* 91.79 92.59 93.09 91.55 93.13 91.67 0.63
89.89* 93.75 94.13* 95.2 96.6 93.87* 95.77* 96.79 88.74 90.52 98.06 97.67 89.89* 93.75 94.13* 95.2 96.6 93.87* 95.77* 96.79 88.74 90.52 98.06 97.67 0.49
53.87 66.25 68.95 67.91 66.37 63.02 64.28 56.83 57.98 62.91 71.27 70.12 53.87 66.25 68.95 67.91 66.37 63.02 64.28 56.83 57.98 62.91 71.27 70.12 0.41
pre-processing step for each dataset, all the continuous features are Z-normalized, and all categorical features are label-encoded before the data is passed on to the embedding layer. 各データセットの前処理ステップでは、すべての連続的な機能はz正規化され、すべてのカテゴリ機能は、データが埋め込み層に渡される前にラベルエンコードされる。 0.67
Model variants The SAINT architecture discussed in the previous section has one self-attention transformer encoder block stacked with one intersample attention transformer encoder block in each stage. モデル変種 前節で論じられたsaintアーキテクチャは、各段に1つのサンプル間注意トランスエンコーダブロックを積み重ねた1つのセルフアテンショントランスエンコーダブロックを持っている。 0.75
We also consider variants with just one of these blocks. また、これらのブロックの1つだけで変種を考える。 0.60
SAINT-s variant has only self-attention, and SAINT-i has only intersample attention. SAINT-iは自己注意しか持たず、SAINT-iは相互の注意しか持たない。 0.56
SAINT-s is exactly the encoder from [41] but applied to tabular data. SAINT-sは[41]のエンコーダだが、表のデータに適用される。 0.66
See Table 1 for an architectural comparison of these model variants. これらのモデルバリエーションのアーキテクチャ比較については、テーブル1を参照してください。 0.57
Baselines We compare our model to traditional methods like logistic regression and random forests. ベースライン モデルとロジスティック回帰やランダムフォレストといった従来の手法を比較します。 0.71
We benchmark against the powerful boosting libraries XGBoost, LightGBM, and CatBoost. 我々は、強力なブースティングライブラリXGBoost、LightGBM、CatBoostに対してベンチマークを行った。 0.61
We also compare against deep learning methods, like multi-layer perceptrons, VIME, TabNet, and TabTransformer. また,多層パーセプトロン,VIME,TabNet,TabTran sformerなどのディープラーニング手法との比較を行った。 0.69
For the methods that use unsupervised pre-training as a preprocessing step, we used Masked Language Modeling (MLM) for TabNet [9], and we use Replaced Token Detection (RTD) for TabTransformer [8] as mentioned in the respective papers. 教師なし事前学習を前処理として使用する手法として,tabnet [9] でマスク言語モデリング (mlm) を用い,各論文で述べたようにtabtransformer [8] で置換トークン検出 (rtd) を用いた。 0.77
For multi-layer perceptrons, we use denoising [43] as suggested in VIME. マルチ層パーセプトロンでは、VIME で提案されているような denoising [43] を用いる。 0.63
Metrics Since the majority of the tasks used in our analysis are binary classification, we use AUROC as the primary metric to measure performance. メトリクス 分析で使用されるタスクの大部分がバイナリ分類であるため、AUROCを主要な測定基準として使用しています。 0.70
AUROC captures how well the model separates the two classes in the dataset. AUROCは、モデルがデータセット内の2つのクラスをいかにうまく分離するかをキャプチャする。 0.59
For the two multi-class datasets, Volkert and MNIST, we use the accuracy on the test set to compare performance. volkertとmnistの2つのマルチクラスデータセットでは、テストセットの精度を使ってパフォーマンスを比較します。 0.70
Training We train all the models (including pre-training runs) using AdamW with β1 = 0.9, β2 = 0.999, decay = 0.01, and with a learning rate of 0.0001 with batches of size 256 (except for datasets with a large number of columns like MNIST and Arcene, for which we use smaller batch sizes). トレーニング 私たちは、β1 = 0.9, β2 = 0.999, decay = 0.01でadamwを使用してすべてのモデル(事前トレーニングを含む)をトレーニングし、サイズ256のバッチで0.0001の学習レートでトレーニングします(mnistやarceneのような多数のカラムを持つデータセットを除いて、バッチサイズを小さくします)。
訳抜け防止モード: トレーニング β1 = 0.9でAdamWを使って、すべてのモデルをトレーニングします。 β2 = 0.999、崩壊 = 0.01、学習速度は0.0001、バッチサイズ256(MNISTやArceneのような多数の列を持つデータセットを除く)である。 そのため、より小さなバッチサイズを使用します。
0.76
We split the data into 65%, 15%, and 25% for training, validation, and test splits, respectively. 私たちはそれぞれ、トレーニング、検証、テストの分割のために、データを65%、15%、25%に分割しました。 0.67
We vary the embedding size based on the number of features in the dataset. データセットの機能の数に応じて、埋め込みサイズが異なります。 0.63
The exact configurations for each of the datasets are presented in Appendix C. We use CutMix mask parameter pcutmix = 0.3 and mixup parameter α = 0.2 for all the standard pre-training experiments. 各データセットの正確な設定は、Appendix Cで表示されます。 標準的な事前トレーニング実験には、CutMixのマスクパラメータpcutmix = 0.3とミックスアップパラメータα = 0.2を使用します。 0.69
We use pre-training loss hyper-parameters λpt = 10 and temperature τ = 0.7 for all settings. 事前学習損失ハイパーパラメータ λpt = 10 と温度 τ = 0.7 を全ての設定に使用する。 0.72
5.1 Results Supervised setting In Table 2, we report results on 7 representative binary classification and 2 multiclass classification datasets, as well as the average performance across all 14 binary classification datasets. 5.1結果 表2では、7つの代表的なバイナリ分類と2つのマルチクラス分類データセット、および14のバイナリ分類データセットの平均性能について報告する。 0.75
Note that each number reported in the Table 2 is the mean from 5 trials with different seeds. 表2に記載されている各数字は、種別の5つの試行の平均である。 0.69
In 13 out of 16 datasets, one of the SAINT variants outperforms all baseline models. 16のデータセットのうち13では、SAINTの亜種がすべてのベースラインモデルを上回っている。 0.62
In the remaining 3 datasets, our model’s performance is very close to the best model. 残りの3つのデータセットでは、モデルのパフォーマンスは最高のモデルに非常に近い。 0.81
On average, SAINT variants each perform better than all baseline models by a significant margin, and SAINT performs even better than its two variants. SAINTの変種は、それぞれがすべてのベースラインモデルよりも大きなマージンで、SAINTは2つの変種よりもパフォーマンスが良い。 0.63
For complete results from every dataset as well as details including standard error, see Appendix D. すべてのデータセットからの結果と標準エラーを含む詳細については、appendix dを参照してください。 0.68
7 7 0.85
英語(論文から抽出)日本語訳スコア
Semi-supervised setting We perform 3 sets of experiments with 50, 200, and 500 labeled data points (in each case the rest are unlabeled). 半教師付き設定 50,200,500のラベル付きデータポイント(それぞれラベルなし)で3セットの実験を行います。 0.65
See Table 3 for numerical results. 数値結果の表3を参照。 0.79
In all cases, the pre-trained SAINT model (with both self and intersample attention) performs the best. いずれの場合も、事前訓練されたSAINTモデルは(自己と相互に注意を払って)最善を尽くします。 0.60
Interestingly, we note that when all the training data samples are labeled, pre-training does not contribute appreciably, hence the results with and without pre-training are fairly close. 興味深いことに、すべてのトレーニングデータサンプルがラベル付けされている場合、事前トレーニングは評価に寄与しないため、事前トレーニングの有無もかなり近い。 0.72
Effect of embedding continuous features To understand the effect of learning embeddings for continuous data, we perform a simple experiment with TabTransformer. 連続データに対する埋め込み学習の効果を理解するために,TabTransformer を用いた簡単な実験を行った。
訳抜け防止モード: 連続データに対する埋め込み学習の効果を理解するための連続的特徴の埋め込みの効果 TabTransformerで簡単な実験を行います。
0.89
We modify TabTransformer by embedding continuous features into d dimensions using a single layer ReLU MLP, just as they use on categorical features, and we pass the embedded features through the transformer block. 我々は,単層relu mlpを用いて,連続的な特徴をd次元に組み込むことでタブトランスフォーマーを改良し,その特徴をトランスフォーマブロックに渡す。
訳抜け防止モード: TabTransformer を変更 単一層ReLU MLPを用いた連続的特徴の次元への埋め込み カテゴリー的特徴で使うのと同じように 埋め込まれた特徴を トランスブロックに渡します
0.77
We keep the entire architecture and all training hyper-parameters the same for both TabTransformer and its modified version. アーキテクチャ全体とすべてのトレーニングハイパーパラメータを、tabtransformerと変更バージョンの両方で同じに保ちます。 0.72
The average AUROC of the original TabTransformer is 89.38. 初代TabTransformerの平均AUROCは89.38である。 0.82
Just by embedding the continuous features, the performance jumps to 91.72. 継続的機能を埋め込むことで、パフォーマンスは91.72に跳ね上がる。 0.74
This experiment shows that embedding the continuous data is important and can boost the performance of the model significantly. この実験は、継続的なデータを埋め込むことが重要であり、モデルの性能を著しく向上させることを示している。
訳抜け防止モード: この実験は 連続したデータを埋め込むことが重要であり、モデルの性能を大幅に向上させることができる。
0.75
When to use intersample attention? サンプル間の注意をいつ使うか? 0.65
From our experiments, we observe that SAINT-i consistently outperforms other variants whenever the number of features is large. 実験の結果,SAINT-iは特徴数が大きくなると常に他の変種よりも優れることがわかった。 0.64
In particular, whenever there are few training data points coupled with many features (which is common in biological datasets), SAINT-i outperforms SAINT-s significantly (see the “Arcene” and “Arrhythmia” results). 特に、多くの特徴(生物学的データセットで一般的な)と結びついたトレーニングデータポイントがほとんどない場合、SAINT-iはSAINT-sを著しく上回る("Arcene"と"Arrhythmia"の結果を参照)。 0.76
Another advantage of using SAINT-i is that execution is fast compared to SAINT-s, despite the fact that the number of parameters of SAINT-i is much higher than that of SAINT-s (see Table 1). SAINT-iを使用するもうひとつの利点は、SAINT-iのパラメータ数がSAINT-sよりもはるかに多いにもかかわらず、実行がSAINT-sと比較して速いことである(表1参照)。 0.69
How robust is SAINT to data corruptions? SAINTはデータの破損に対してどの程度堅牢か? 0.58
We evaluate the robustness of SAINT variants by corrupting the training data. 訓練データの破損によりst変種のロバスト性を評価する。 0.64
To simulate corruption, we apply CutMix, replacing 10% to 90% of the features with values of other randomly selected samples. 腐敗をシミュレートするためにcutmixを適用し、10%から90%の機能を他のランダムに選択したサンプルの値に置き換える。 0.78
The drop in the mean AUROC is quite minimal until 70% data corruption when the performance drops significantly. aurocの平均値の低下は、パフォーマンスが大幅に低下するまで、データ破損の70%まで極めて少ない。 0.65
SAINT and SAINT-i models are comparatively more robust than SAINT-s. SAINT-iモデルはSAINT-sよりも比較的堅牢である。 0.67
This shows that using row attention improves the model’s robustness to noisy training data as we anticipated. これは、行アテンションを使用することで、予想通りノイズの多いトレーニングデータに対するモデルの堅牢性が向上することを示している。 0.51
However, we find the opposite trend when many features are missing in the training data. しかし、トレーニングデータに多くの機能が欠けている場合、逆の傾向が見られます。 0.64
SAINT-s and SAINT are quite robust, and the drop in AUROC is not drastic even when 90% of the data is missing. SAINT-sとSAINTは極めて堅牢で、データの90%が失われてもAUROCの低下は劇的ではない。 0.72
This observation shows that SAINT is reliable for training on corrupted training data. この観察から、聖人は腐敗した訓練データの訓練に信頼できることが分かる。 0.56
The AUROC trend line plots for both the scenarios are shared in Appendix E. Effect of batch size on intersample attention performance As discussed in Section 3.2, attention is computed between batches of data points. 両シナリオのAUROCトレンド線プロットは、Appendix Eで共有されている。 第3.2節で議論されているように、データポイントのバッチ間で注意が計算される。 0.69
We examine the impact of batch size using batches of size ranging from 32 to 256. バッチサイズが32から256までのバッチサイズに与える影響について検討した。 0.68
We find that the variation in SAINT-i’s performance is low and is comparable to that of SAINT-s, which has no intersample attention component. SAINT-iのパフォーマンスの変動は低く、サンプル間の注意要素を持たないSAINT-sと同等であることがわかった。 0.70
We present the plots in Appendix E. プロットはAppendix Eで紹介する。 0.56
Table 3: Average AUROC scores (in %) across 14 datasets under semi-supervised scenarios. 表3: 半教師付きシナリオで14のデータセットの平均aurocスコア(%)。 0.71
Columns vary by number of labeled training samples. 列はラベル付きトレーニングサンプルの数によって異なる。 0.70
The last column is a repetition of results from Table 2. 最後の列は、テーブル2からの結果の繰り返しです。 0.83
Model \ # Labeled Logistic Reg. Model \ # Labeled Logistic Reg 0.68
Random Forest XGBoost [4] LightGBM [22] CatBoost [10] MLP w. DAE [43] VIME [49] TabNet w. MLM [1] TabTransf. ランダムフォレストXGBoost [4] LightGBM [22] CatBoost [10] MLP w. DAE [43] VIME [49] TabNet w. MLM [1] TabTransf 0.85
w. RTD [18] SAINT-s SAINT-i SAINT SAINT-s + pre-training SAINT-i + pre-training SAINT+ pre-training w.RTD [18] SAINT-s SAINT-i SAINT-s + pre-training SAINT-i + pre-training SAINT+ pre-training 0.62
All 89.25 89.52 91.06 90.13 90.73 84.59 76.07 83.88 90.86 92.59 93.09 93.13 92.64 93.02 92.99 All 89.25 89.52 91.06 90.13 90.73 84.59 76.07 83.88 90.86 92.59 93.09 93.13 92.64 93.02 92.99 0.43
500 82.13 86.76 86.20 87.94 88.84 81.98 76.24 76.01 87.36 88.89 88.12 89.12 89.19 88.77 89.22 500 82.13 86.76 86.20 87.94 88.84 81.98 76.24 76.01 87.36 88.89 88.12 89.12 89.19 88.77 89.22 0.43
50 78.69 80.99 78.13 78.69 84.08 71.59 67.22 67.31 82.41 85.14 83.93 85.78 85.92 84.88 86.91 50 78.69 80.99 78.13 78.69 84.08 71.59 67.22 67.31 82.41 85.14 83.93 85.78 85.92 84.88 86.91 0.63
200 78.93 82.56 83.89 85.60 88.08 78.84 74.43 71.72 86.16 87.32 84.65 87.66 87.94 88.41 88.69 200 78.93 82.56 83.89 85.60 88.08 78.84 74.43 71.72 86.16 87.32 84.65 87.66 87.94 88.41 88.69 0.43
5.2 Interpreting attention 5.2 注意を解釈する 0.59
One advantage of using transformer-based models is that attention comes with some interpretability, in contrast, MLPs are hard to interpret. トランスフォーマーモデルを使う利点の1つは、mlpは解釈が難しいという解釈可能性に注意が向けられることである。 0.56
In particular, when we use only one transformer stage, the attention maps reveal which features and which data points are being used by the model to make decisions. 特に、1つのトランスフォーマーステージだけを使用すると、アテンションマップはどの特徴とどのデータポイントがモデルによって決定に使われているかを明らかにする。 0.66
We use MNIST data to examine how self-attention and intersample attention behave in our models. 我々は、MNISTデータを用いて、モデルにおける自己注意と相互注意がどのように振舞うかを調べる。 0.54
While MNIST is not a typical tabular dataset, it has the advantage that its features can be easily visualized as an image. MNISTは典型的な表形式のデータセットではないが、その特徴を画像として容易に視覚化できるという利点がある。 0.67
8 8 0.85
英語(論文から抽出)日本語訳スコア
(a) Self-attn. (a)セルフアット。 0.68
in SAINT (b) Intersample attn. SAINT では (b)インターサンプル attn。 0.78
in SAINT (c) Intersample attn. SAINT では (c)インターサンプル attn。 0.79
in SAINT-i Figure 3: Visual representations of various attention mechanisms. SAINT-i 図3:様々な注意メカニズムの視覚的表現。 0.80
Figure 4: A t-SNE visualization of value vectors in intersample attention layers of SAINT (left) and SAINTi (right). 図4: SAINT(左)とSAINTi(右)のサンプル間注目層における値ベクトルのt-SNE可視化。 0.86
We plot 3500 points in each figure, with classes uniformly represented. 各図に3500点をプロットし,クラスを一様に表現した。 0.68
In the left plot, we observe that the most attended classes are 1, 2, 3, and 8. 左プロットでは、最も出席するクラスが 1, 2, 3, 8 であるのを観察する。
訳抜け防止モード: 左のプロットでは、私たちはそれを観察します。 最も出席するクラスは 1, 2, 3, 8
0.81
But in the right plot, the most attended classes are 0, 2, 6, and 7. しかし、正しいプロットでは、最も出席するクラスは 0, 2, 6, 7 である。 0.75
Figure 3a depicts the attention on each of the pixels/features in a self-attention layer of SAINT. 図3aは、SAINTの自己注意層における各画素/特徴への注意を描いている。 0.68
Without any explicit supervision, the model learns to focus on the foreground pixels, and we clearly see from the attention map which features are most important to the model. 明確な監督がなければ、モデルは前景のピクセルに焦点を合わせることを学び、どの機能がモデルにとって最も重要なのかを注意マップから明確に見る。 0.70
The self-attention plots of SAINT-s are similar (Appendix F). SAINT-sの自己注意プロットは類似している(Appendix F)。 0.68
Figures 3b and 3c depict a similar visualization on a batch of 20 points, 2 from each class in MNIST. 図3bと3cは、MNISTの各クラスから20点のバッチで、同様の視覚化を描いている。 0.71
Figure 3b shows intersample attention in SAINT. 図3bはSAINTにおけるサンプル間の注意を示しています。 0.49
This plot shows which samples attend to which other samples in the batch. このプロットは、どのサンプルがバッチ内の他のサンプルに参加するかを示す。 0.62
Surprisingly, very few points in a batch receive attention. 驚くべきことに、バッチで注目されるポイントはごくわずかだ。 0.58
We hypothesize that the model focuses on a few points that are critical because they are particularly difficult to classify without making direct comparisons to exemplars in the batch. モデルは、バッチの例題と直接比較することなく、分類が特に難しいため、重要ないくつかの点に焦点を当てていると仮定する。 0.67
In Figure 3c, we show the intersample attention plot from a SAINT-i model. 図3cでは、SAINT-iモデルからのサンプル間注意プロットを示す。 0.72
The same sparse attention behaviour persists here too, but the points being attended to are different in this model. 同じスパースな注意行動はここでも継続するが、このモデルでは、出席するポイントが異なる。 0.71
Interestingly, we find this behavior to be significantly different on the Volkert data, where a wide range of data becomes the focus of attention depending on the input. 興味深いことに、この振る舞いはvolkertのデータでは著しく異なり、入力に応じて幅広いデータが注意の焦点となる。
訳抜け防止モード: 興味深いことに、この動作はvolkertのデータで大きく異なることが分かっています。 広い範囲のデータが、入力に応じて注意の焦点となる場合。
0.68
The intersample attention layer gets dense with the hardness (to classify) of the datasets. サンプル間注意層は、データセットの硬さ(分類する)に密着する。 0.71
See Appendix F for additional MNIST and Volkert attention maps. 追加のmnist と volkert attention maps については appendix f を参照。 0.64
Figure 4 shows the behavior of attention at the dataset (rather than batch) level. 図4は(バッチではなく)データセットレベルでの注意の振る舞いを示しています。 0.72
We visualize a t-SNE [40] embedding for value vectors generated in intersample attention layers, and we highlight the points that are most attended to in each batch. サンプル間アテンション層で生成される値ベクトルに対して,t-sne [40] 埋め込みを可視化し,各バッチで最も多いポイントを強調する。 0.74
In Figure 4 (left), the value vectors and attention are computed on the output representations of a self-attention layer. 図4(左)では、自己注意層の出力表現に対して値ベクトルと注意が計算される。 0.76
In contrast, the value vectors and attention in Figure 4 (right) are computed on the embedding layer output, since the SAINT-i model does not use self-attention. 対照的に、図4(右)の値ベクトルと注意は、SAINT-iモデルは自己注意を使用しないので、埋め込み層出力で計算される。 0.71
In these two plots, the classes to which the model attends vary dramatically. この2つのプロットでは、モデルが参加するクラスは劇的に変化する。 0.74
Thus, the exact classes to which an attention head pays attention change with the architecture, but the trend of using a few classes as a ‘pivot’ seems to be prevalent in intersample attention heads. したがって、注意ヘッドが注意を向ける正確なクラスはアーキテクチャによって変更されるが、いくつかのクラスを'pivot'として使う傾向は、サンプル間注意ヘッドで広く見られるように思われる。 0.66
Additional analyses are presented in Appendix E. さらなる分析はAppendix Eで行われている。 0.74
9 00112233445566778899 Attended to001122334455667788 99Points in batch (Labels)001122334455 66778899Attended to001122334455667788 99Points in batch (Labels)15105051015T SNE11050510TSNE2labe ls01234567891050510T SNE11050510TSNE2labe ls0123456789 9 00112233445566778899 Attended to001122334455667799 Points in batch (Labels)001122334455 66778899Attended to001122334455667799 Points in batch (Labels)151050515TSN E11050510TSNE2labels 01234567891010TSNE11 050510TSNE2labels012 34567891010 0.69
英語(論文から抽出)日本語訳スコア
6 Discussion, Limitations, and Impact 6 議論、限界、影響 0.59
We introduce intersample attention, contrastive pre-training, and an improved embedding strategy for tabular data. 本稿では,サンプル間注意,対照的な事前学習,および表データの埋め込み戦略の改善を紹介する。 0.61
Even though tabular data is an extremely common data format used by institutions in various domains, deep learning methods are still lagging behind tree-based boosting methods in production. 表形式のデータは、様々なドメインの機関が使用する非常に一般的なデータフォーマットであるが、ディープラーニング手法は、生産においてツリーベースの強化手法に遅れを取っている。 0.54
With SAINT, we show that neural models can often improve upon the performance of boosting methods across numerous datasets with varying characteristics. SAINTでは、ニューラルネットワークが様々な特徴を持つ多数のデータセットにまたがるブースティング手法の性能を改善することができることを示す。 0.65
SAINT offers improvements in a widely used domain, which is quite impactful. SAINTは広く使われているドメインの改善を提供します。 0.72
While our method performs well on the diverse tabular datasets studied here, real-world applications contain a broad range of datasets which may be highly noisy or imbalanced. 提案手法は,多種多様な表付きデータセットでよく機能するが,実世界のアプリケーションには,非常にうるさい,あるいは不均衡な幅広いデータセットが含まれている。 0.67
Moreover, we have tuned SAINT for the settings in which we test it. さらに、テストする設定のためにSAINTをチューニングしました。 0.60
Thus, we caution practitioners against assuming that what works on the benchmarks in this paper will work in their own setting. そこで本稿では,ベンチマークの動作が自身の設定で機能することを前提として,実践者に対して警告を行う。 0.58
References [1] Sercan O Arik and Tomas Pfister. 参照 [1] sercan o arik と tomas pfister。 0.59
Tabnet: Attentive interpretable tabular learning. Tabnet: 注意深い解釈可能な表型学習。 0.63
arXiv preprint arXiv プレプリント 0.83
arXiv:1908.07442, 2019. arxiv: 1908.07442、2019年。 0.36
[2] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. [2] ジミー・レイ・バ、ジェイミー・ライアン・キロス、ジェフリー・e・ヒントン。 0.55
Layer normalization. arXiv preprint 層正規化。 arXiv プレプリント 0.71
arXiv:1607.06450, 2016. arXiv:1607.06450, 2016 0.69
[3] Jiaoyan Chen, Ernesto Jiménez-Ruiz, Ian Horrocks, and Charles Sutton. [3]Jiaoyan Chen、Ernest Jiménez-Ruiz、Ian Horrocks、Charles Sutton。 0.73
Learning semantic annotations for 意味的アノテーションの学習 0.80
tabular data. arXiv preprint arXiv:1906.00781, 2019. 表のデータだ arXiv preprint arXiv:1906.00781, 2019 0.74
[4] Tianqi Chen and Carlos Guestrin. 4]Tianqi ChenとCarlos Guestrin。 0.66
Xgboost: A scalable tree boosting system. Xgboost: スケーラブルなツリーブースティングシステム。 0.73
In Proceedings of the 22nd 第22条の手続において 0.64
acm sigkdd international conference on knowledge discovery and data mining, pages 785–794, 2016. acm sigkdd international conference on knowledge discovery and data mining, pages 785–794, 2016 (英語) 0.88
[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 5]Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton。 0.58
A simple framework for contrastive learning of visual representations. 視覚表現のコントラスト学習のための単純なフレームワーク。 0.81
In International conference on machine learning, pages 1597–1607. 機械学習に関する国際会議』1597-1607頁。 0.77
PMLR, 2020. PMLR、2020年。 0.88
[6] Xinlei Chen and Kaiming He. [6]シンレイ・チェンとカイミング・ヘ。 0.62
Exploring simple siamese representation learning. 単純なシャイム表現学習の探索 0.68
arXiv preprint arXiv プレプリント 0.83
arXiv:2011.10566, 2020. arXiv:2011.10566, 2020 0.71
[7] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. 7]Rewon Child、Scott Gray、Alec Radford、Ilya Sutskever。 0.61
Generating long sequences with sparse スパースで長い配列を生成する 0.76
transformers. arXiv preprint arXiv:1904.10509, 2019. 変圧器だ arXiv preprint arXiv:1904.10509, 2019 0.68
[8] Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D Manning. Kevin Clark氏、Minh-Thang Luong氏、Quoc V Le氏、Christopher D Manning氏。 0.77
Electra: Pre-training text Electra: 事前学習テキスト 0.88
encoders as discriminators rather than generators. 発電機ではなく 差別者としてのエンコーダです 0.46
arXiv preprint arXiv:2003.10555, 2020. arXiv preprint arXiv:2003.10555, 2020 0.81
[9] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 9]Jacob Devlin氏、Ming-Wei Chang氏、Kenton Lee氏、Kristina Toutanova氏。 0.73
Bert: Pre-training of deep bidirec- Bert:Deep bidirecの事前トレーニング- 0.84
tional transformers for language understanding. 言語理解のためのオプショントランスフォーマー。 0.63
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.79
[10] Anna Veronika Dorogush, Vasily Ershov, and Andrey Gulin. 10]Anna Veronika Dorogush、Vasily Ershov、Andrey Gulin。 0.60
Catboost: gradient boosting with categorical Catboost:カテゴリーによる勾配上昇 0.82
features support. arXiv preprint arXiv:1810.11363, 2018. 機能サポート。 arXiv preprint arXiv:1810.11363, 2018 0.74
[11] Dheeru Dua and Casey Graff. [11]Dheeru DuaとCasey Graff。 0.76
UCI machine learning repository, 2017. UCI機械学習レポジトリ、2017年。 0.79
URL http://archive.ics.u ci. URL http://archive.ics.u ci. 0.59
edu/ml. [12] Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your own latent: A new approach to self-supervised learning. edu/ml。 Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your latent: 自己教師型学習の新しいアプローチ。
訳抜け防止モード: edu/ml。 [12 ] Jean - Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al Bootstrap your own latent : A new approach to self - supervised learning .
0.77
arXiv preprint arXiv:2006.07733, 2020. arXiv preprint arXiv:2006.07733, 2020 0.81
[13] Isabelle Guyon, Steve R Gunn, Asa Ben-Hur, and Gideon Dror. 13]Isabelle Guyon、Steve R Gunn、Asa Ben-Hur、そしてGideon Dror。 0.72
Result analysis of the nips 2003 feature nips 2003機能の結果分析 0.68
selection challenge. In NIPS, volume 4, pages 545–552, 2004. 選択の挑戦だ nips, volume 4, pp. 545–552, 2004を参照。 0.73
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [14]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.53
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 770–778, 2016 0.80
[15] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. [15]カイミング・ヘ、ホーキー・ファン、ユキシン・ウー、サイニング・シー、ロス・ギルシック。 0.41
Momentum contrast for unsupervised visual representation learning. 教師なし視覚表現学習におけるモメンタムコントラスト 0.62
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9729–9738, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 9729–9738, 2020。 0.91
[16] Dan Hendrycks and Kevin Gimpel. 16] Dan Hendrycks氏とKevin Gimpel氏。 0.84
Gaussian error linear units (gelus). ガウス誤差線形単位(gelus)。 0.61
arXiv preprint arXiv:1606.08415, arXiv preprint arXiv:1606.08415, 0.65
2016. 10 2016. 10 0.85
英語(論文から抽出)日本語訳スコア
[17] Jonathan Ho, Nal Kalchbrenner, Dirk Weissenborn, and Tim Salimans. ジョナサン・ホー、Nal Kalchbrenner、Dirk Weissenborn、Tim Salimans。 0.52
Axial attention in multidimensional 多次元における軸的注意 0.54
transformers. arXiv preprint arXiv:1912.12180, 2019. 変圧器だ arXiv preprint arXiv:1912.12180, 2019 0.68
[18] Xin Huang, Ashish Khetan, Milan Cvitkovic, and Zohar Karnin. [18]シン・フン、アシシュ・ケタン、ミラノ・クヴィトコビッチ、ゾハル・カルニン。 0.41
Tabtransformer: Tabular data modeling tabtransformer: 表型データモデリング 0.88
using contextual embeddings. コンテキスト埋め込みを使用する。 0.61
arXiv preprint arXiv:2012.06678, 2020. arXiv preprint arXiv:2012.06678, 2020 0.81
[19] IBM. Telco customer churn (11.1.3+), 2019. [19] IBM。 telco customer churn (11.1.3+), 2019年。 0.78
URL https://community.ib m.com/community/user / URL https://community.ib m.com/community/user / 0.37
businessanalytics/bl ogs/steven-macko/201 9/07/11/telco-custom er-churn-1113. businessanalytics/bl ogs/steven-macko/201 9/07/11/telco-custom er-churn-1113 0.15
[20] Hiroshi Iida, Dung Thai, Varun Manjunatha, and Mohit Iyyer. [20]飯田ひろし、Dung Thai、Varun Manjunatha、Mohit Iyyer。 0.62
Tabbie: Pretrained representations of tabular Tabbie: 表の事前制限された表現 0.58
data. arXiv preprint arXiv:2105.02584, 2021. データだ arXiv preprint arXiv:2105.02584, 2021 0.76
[21] Liran Katzir, Gal Elidan, and Ran El-Yaniv. Liran Katzir氏、Gal Elidan氏、Ran El-Yaniv氏。 0.57
Net-dnf: Effective deep modeling of tabular data. Net-dnf: 表データの効果的な深層モデリング。 0.69
[22] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. [22]Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu 0.78
Lightgbm: A highly efficient gradient boosting decision tree. Lightgbm: 意思決定ツリーの効率的な勾配向上。 0.76
Advances in neural information processing systems, 30:3146–3154, 2017. ニューラル情報処理システムの進歩, 30:3146–3154, 2017 0.81
[23] Fabian Keller, Emmanuel Muller, and Klemens Bohm. Fabian Keller氏、Emmanuel Muller氏、Klemens Bohm氏。 0.58
Hics: High contrast subspaces for density-based outlier ranking. Hics: 密度ベースのアウトリーランキングのための高コントラスト部分空間。 0.66
In 2012 IEEE 28th international conference on data engineering, pages 1037–1048. 2012年、ieee 28th international conference on data engineering 1037-1048ページ。 0.78
IEEE, 2012. 2012年、IEEE。 0.66
[24] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Yann LeCun氏、Léon Bottou氏、Yoshua Bengio氏、Patrick Haffner氏。 0.59
Gradient-based learning applied to グラデーションベース学習の適用 0.75
document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 文書認識。 IEEE 86(11):2278–2324, 1998 年。 0.71
[25] Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. [25]Fei Tony Liu、Kai Ming Ting、Zhi-Hua Zhou。 0.73
Isolation forest. In 2008 eighth ieee international 孤立林。 2008年 第8回ieee international 0.69
conference on data mining, pages 413–422. データマイニングに関するカンファレンス、413-422ページ。 0.62
IEEE, 2008. 2008年、IEEE。 0.66
[26] Robert J Lyon, BW Stappers, Sally Cooper, John Martin Brooke, and Joshua D Knowles. Robert J Lyon氏、BW Stappers氏、Sally Cooper氏、John Martin Brooke氏、Joshua D Knowles氏。 0.69
Fifty years of pulsar candidate selection: from simple filters to a new principled real-time classification approach. 50年間のパルサー候補選択:単純なフィルタから新しい原則付きリアルタイム分類アプローチまで。 0.82
Monthly Notices of the Royal Astronomical Society, 459(1):1104–1123, 2016. 王立天文学会月報, 459(1):1104–1123, 2016 0.62
[27] Kamel Mansouri, Tine Ringsted, Davide Ballabio, Roberto Todeschini, and Viviana Consonni. [27]Kamel Mansouri, Tine Ringsted, Davide Ballabio, Roberto Todeschini, Viviana Consonni。 0.72
Quantitative structure–activity relationship models for ready biodegradability of chemicals. 化学物質の生分解性に関する定量的構造-活性関係モデル 0.67
Journal of chemical information and modeling, 53(4):867–878, 2013. Journal of chemical information and modeling, 53(4):867–878, 2013 0.92
[28] Charles E McCulloch and John M Neuhaus. 28] チャールズ・e・マカロックと ジョン・m・ニューハウス 0.62
Generalized linear mixed models. 一般化線形混合モデル。 0.86
Encyclopedia of biostatistics, Encyclopedia of Biostatistics, 0.84
4, 2005. [29] Sérgio Moro, Paulo Cortez, and Paulo Rita. 4, 2005. 29] セルジオ・モロ、パウロ・コルテス、パウロ・リタ 0.63
A data-driven approach to predict the success of bank 銀行の成功予測のためのデータ駆動アプローチ 0.81
telemarketing. テレマーケティング。 0.57
Decision Support Systems, 62:22–31, 2014. 2014年、62:22-31頁。 0.54
[30] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. 30]Aaron van den Oord, Yazhe Li, Oriol Vinyals 0.56
Representation learning with contrastive predictive 対照予測を用いた表現学習 0.74
coding. arXiv preprint arXiv:1807.03748, 2018. コーディング。 arXiv preprint arXiv:1807.03748, 2018 0.75
[31] Inkit Padhi, Yair Schiff, Igor Melnyk, Mattia Rigotti, Youssef Mroueh, Pierre Dognin, Jerret Ross, Ravi Nair, and Erik Altman. Inkit Padhi, Yair Schiff, Igor Melnyk, Mattia Rigotti, Youssef Mroueh, Pierre Dognin, Jerret Ross, Ravi Nair, Erik Altman。
訳抜け防止モード: [31 ]Inkit Padhi, Yair Schiff, Igor Melnyk, Mattia Rigotti, Youssef Mroueh, Pierre Dognin, Jerret Ross Ravi NairとErik Altman。
0.77
Tabular transformers for modeling multivariate time series. 多変量時系列モデリングのための表型トランスフォーマー 0.70
In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3565–3569. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、3565–3569頁。 0.91
IEEE, 2021. IEEE、2021年。 0.81
[32] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. Deepak Pathak氏、Philipp Krahenbuhl氏、Jeff Donahue氏、Trevor Darrell氏、Alexei A Efros氏。 0.66
Context encoders: Feature learning by inpainting. コンテキストエンコーダ: インペイントによる特徴学習。 0.78
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2536–2544, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 2536–2544, 2016 0.80
[33] Roshan Rao, Jason Liu, Robert Verkuil, Joshua Meier, John F Canny, Pieter Abbeel, Tom Sercu, and [33]Roshan Rao, Jason Liu, Robert Verkuil, Joshua Meier, John F Canny, Pieter Abbeel, Tom Sercu, 0.77
Alexander Rives. アレクサンドル・リヴス。 0.59
Msa transformer. bioRxiv, 2021. MSAトランス。 BioRxiv、2021年。 0.66
[34] C Okan Sakar, S Olcay Polat, Mete Katircioglu, and Yomi Kastro. [34]C Okan Sakar、S Olcay Polat、Mete Katircioglu、Yomi Kastro。 0.66
Real-time prediction of online shoppers’ purchasing intention using multilayer perceptron and lstm recurrent neural networks. マルチ層パーセプトロンとlstmリカレントニューラルネットワークを用いたオンライン買い物客の購入意図のリアルタイム予測 0.63
Neural Computing and Applications, 31(10):6893–6908, 2019. Neural Computing and Applications, 31(10):6893–6908, 2019。 0.93
[35] Ira Shavitt and Eran Segal. [35]Ira ShavittとEran Segal。 0.77
Regularization learning networks: deep learning for tabular datasets. 正規化学習ネットワーク: グラフデータセットのディープラーニング。 0.54
arXiv preprint arXiv:1805.06440, 2018. arXiv arXiv:1805.06440, 2018 0.79
[36] Kihyuk Sohn. [36]キヒョクソーン。 0.46
Improved deep metric learning with multi-class n-pair loss objective. マルチクラスn対損失目標を用いた深度距離学習の改良 0.72
In Proceedings of the 30th International Conference on Neural Information Processing Systems, pages 1857–1865, 2016. 訴訟の手続において 30th International Conference on Neural Information Processing Systems, page 1857–1865, 2016 0.72
[37] Jon Starkweather and Amanda Kay Moske. 37] ジョン・スタークウェザーと アマンダ・ケイ・モスケ 0.52
Multinomial logistic regression, 2011. 多項ロジスティック回帰、2011年。 0.53
11 11 0.85
英語(論文から抽出)日本語訳スコア
[38] J Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, and Philip K Chan. J Stolfo氏、Wei Fan氏、Wenke Lee氏、Andreas Prodromidis氏、Philip K Chan氏。 0.65
Cost-based modeling and evaluation for data mining with application to fraud and intrusion detection. データマイニングのためのコストベースモデリングと評価と不正・侵入検出への応用 0.83
Results from the JAM Project by Salvatore, pages 1–15, 2000. SalvatoreによるJAMプロジェクトの結果、2000年1-15ページ。 0.73
[39] KM Ting, SC Tan, and FT Liu. [39]KM Ting、SC Tan、FT Liu。 0.63
Mass: A new ranking measure for anomaly detection. Mass: 異常検出のための新しいランキング尺度。 0.83
Gippsland School of Gippsland (複数形 Gippslands) 0.42
Information Technology, Monash University, 2009. モナシュ大学情報工学科、2009年。 0.59
[40] Laurens Van der Maaten and Geoffrey Hinton. 40]Laurens Van der Maaten氏とGeoffrey Hinton氏。 0.76
Visualizing data using t-sne. t-sneによるデータの可視化 0.51
Journal of machine learning research, 9(11), 2008. 機械学習の日誌 研究、2008年9月9日。 0.62
[41] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz [41]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Lukasz 0.76
Kaiser, and Illia Polosukhin. KaiserとIllia Polosukhin。 0.64
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
arXiv preprint arXiv:1706.03762, 2017. arXiv preprint arXiv:1706.03762, 2017 0.79
[42] Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. ペタル・ヴェリシュコヴィ ́c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, Yoshua Bengio 0.58
Graph attention networks. グラフアテンションネットワーク。 0.63
arXiv preprint arXiv:1710.10903, 2017. arXiv preprint arXiv:1710.10903, 2017 0.80
[43] Pascal Vincent, Hugo Larochelle, Yoshua Bengio, and Pierre-Antoine Manzagol. 43]Pascal Vincent, Hugo Larochelle, Yoshua Bengio, Pierre-Antoine Manzagol。 0.75
Extracting and composing robust features with denoising autoencoders. 自動エンコーダによる堅牢な機能の抽出と構成。 0.57
In Proceedings of the 25th international conference on Machine learning, pages 1096–1103, 2008. 第25回機械学習国際会議(international conference on machine learning)2008年1096-1103頁。 0.68
[44] Sanford Weisberg. サンフォード・ワイスバーグ(Sanford Weisberg)。 0.55
Applied linear regression, volume 528. 応用線形回帰 巻 528。 0.57
John Wiley & Sons, 2005. ジョン・ワイリー&サンズ、2005年。 0.63
[45] Raymond E Wright. レイモンド・E・ライト(Raymond E Wright) 0.55
Logistic regression. ロジスティック回帰。 0.58
1995. [46] Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. 1995. [46]Zhirong Wu、Yuanjun Xiong、Stella X Yu、Dahua Lin。 0.76
Unsupervised feature learning via nonparametric instance discrimination. 非パラメータインスタンス識別による教師なし特徴学習。 0.60
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3733–3742, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 3733–3742, 2018。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 3733-3742頁、2018年。
0.81
[47] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. [47]Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, Eduard Hovy。 0.70
Hierarchical attention networks for document classification. 文書分類のための階層的注意ネットワーク 0.81
In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 1480–1489, 2016. 2016年の北米計算言語学協会の会議、Proceedings of the 2016 Conference of the North American Chapter of the Association for Computer Languages: Human Language Technology, page 1480–1489, 2016 0.74
[48] Pengcheng Yin, Graham Neubig, Wen-tau Yih, and Sebastian Riedel. [48]Pengcheng Yin、Graham Neubig、Wen-tau Yih、Sebastian Riedel。 0.77
Tabert: Pretraining for joint Tabert: 関節のトレーニング 0.72
understanding of textual and tabular data. テキストデータと表データの理解。 0.66
arXiv preprint arXiv:2005.08314, 2020. arXiv preprint arXiv:2005.08314, 2020 0.81
[49] Jinsung Yoon, Yao Zhang, James Jordon, and Mihaela van der Schaar. [49]金正恩、Yao Zhang、James Jordon、Mihaela van der Schaar。 0.60
Vime: Extending the success of self-and semi-supervised learning to tabular domain. Vime: 自己と半教師付き学習の成功を、表ドメインに拡張する。 0.65
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
[50] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. [50]サンドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、サンギュク・チュン、ジュンジュン・チョン、ヨンジュン・ヨー。
訳抜け防止モード: [50]サンドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、 サンギュク・チュン(Sanghyuk Chun)、ジュンスク・チェ(Junsuk Choe)、ヨンジュン・ヨー(Youngjoon Yoo)。
0.62
Cutmix: Regularization strategy to train strong classifiers with localizable features. Cutmix: ローカライズ可能な機能を備えた強力な分類器をトレーニングするための正規化戦略。 0.48
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6023–6032, 2019. In Proceedings of the IEEE/CVF International Conference on Computer Vision, page 6023–6032, 2019。 0.91
[51] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. [51]Hongyi Zhang、Moustapha Cisse、Yann N Dauphin、David Lopez-Paz。 0.75
mixup: Beyond empirical risk mixup: 経験的リスクを超えて 0.63
minimization. arXiv preprint arXiv:1710.09412, 2017. 最小化。 arXiv preprint arXiv:1710.09412, 2017 0.75
12 12 0.85
英語(論文から抽出)日本語訳スコア
Appendix for SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training appendix for saint: 行の注意とコントラストプレトレーニングによる表データのための改良されたニューラルネットワーク 0.65
A Additional illustrations Figure 5: An illustration of self-attention in a point xi. 追加イラスト 図5: 点xiにおける自己注意のイラスト。 0.61
Inspired by Vaswani et al [41]. Vaswaniらにインスパイアされた[41]。 0.66
B Datasets Data sources For each dataset, details and download links are listed in Tables 4 and 5. B データセット 各データセットのデータソース、詳細とダウンロードリンクは、テーブル4とテーブル5にリストされる。 0.77
The 1995 Income Classification dataset is from a 2019 Kaggle competition and was made public without a license. 1995年の所得分類データセットは2019年のKaggleコンペティションから作成され、ライセンスなしで公開されている。
訳抜け防止モード: 1995年の所得分類データセットは2019年のKaggleコンペティションから ライセンスなしで公開されました
0.74
The Arcene dataset, furnished by UCI [11], comprises anonymized patient records, where the goal is to classify entries as containing cancer patterns or normal patterns [13]. uci[11]で提供されたarceneデータセットは、匿名化された患者の記録を含み、がんパターンまたは正常パターンを含むエントリを分類することを目的としている[13]。 0.69
The Arrhythmia dataset is made available by Stonybrook University [23, 25, 39]. Arrhythmia データセットは Stonybrook University [23, 25, 39] によって利用可能である。 0.87
The Bank Marketing dataset is also compiled and organized by UCI and released for research use [29]. Bank MarketingデータセットもUCIによってコンパイルされ、組織化され、研究用にリリースされています [29]。
訳抜け防止モード: Bank MarketingのデータセットもUCIによってコンパイルされ、整理される 研究用にリリースされました [29]
0.68
The BlastChar dataset is fictitious, it is also part of a Kaggle competition and was originally generated by IBM [19]. BlastCharデータセットは架空のものだが、Kaggleコンペティションの一部でもある。
訳抜け防止モード: BlastCharデータセットは架空のものです。 それはまた、カグル競技の一部です 最初はIBM [19 ] が生成しました。
0.70
The Credit Card dataset is provided through another Kaggle competition under the CC0 license for public use. Credit Cardデータセットは、CC0ライセンス下での別のKaggleコンペティションを通じて提供されている。 0.67
The Forest data is available through UCI and was originally donated to their archive from Colorado State University in Fort Collins. 森林データはuciを通じて入手でき、元々はフォートコリンズのコロラド州立大学からアーカイブに寄贈された。 0.61
It is copyrighted by Jock A. Blackard and Colorado State University but available for unlimited use. jock a. blackardとコロラド州立大学によって著作権保護されているが、無制限に利用できる。 0.57
The HTRU2 dataset is also available through the UCI archive and is available for research use [26]. HTRU2データセットは、UCIアーカイブからも利用可能で、研究用 [26] が利用可能である。 0.75
The KDD 99 data consists of digital connection data where the task is to classify connections as good or bad, thereby detecting intrusions [38]. KDD99データは、そのタスクが接続を善または悪と分類し、侵入を検出するデジタル接続データからなる。
訳抜け防止モード: KDD 99データは、そのタスクがあるデジタル接続データからなる。 つながりを善か悪と分類する これにより侵入[38]を検出する。
0.81
Online Shoppers data is available through UCI and is designed to capture the difference between the behavior of online shoppers who make a purchase and those who do not [34]. オンライン買い物客のデータはUCIを通じて入手でき、購入したオンライン買い物客の行動と[34]していない人の行動の違いを捉えるように設計されている。 0.60
The Philippine dataset is available through AutoML for research use and does not have a license. フィリピンのデータセットはAutoML経由で研究用に利用可能で、ライセンスはない。 0.78
The QSAR data is also available through the UCI archive [27]. QSARデータは、UCIアーカイブ[27]を通じても利用可能です。 0.77
The Shrutime consists of anonymized bank records that can be used to determine whether a customer closed their account at that bank. シュルータイムは匿名の銀行記録からなり、顧客がその銀行で口座を閉じたかどうかを判断できる。 0.66
It is made available without a license for a Kaggle competition. kaggleコンペティションのライセンスなしで利用可能である。 0.50
The Spambase data was originally compiled by Hewlett-Packard and donated to Spambase のデータはもともと Hewlett-Packard によってコンパイルされ、寄付された。 0.61
13 LayerNorm + Residual 13 LayerNorm + Residual 0.85
英語(論文から抽出)日本語訳スコア
the UCI archive. The Volkert data is available through AutoML. UCIアーカイブ。 VolkertデータはAutoML経由で利用できる。 0.72
The MNIST data is available at the link provided [24]. MNISTデータは、提供される[24]リンクで利用可能である。 0.76
Table 4: We present statistics on 16 datasets we have used in this paper, 14 of which involve binary classification and 2 of which involve multiclass classification (10 classes). 表4: 本論文で使用した16のデータセットについて統計を提示する。
訳抜け防止モード: 表4: 本稿で使用した16のデータセットの統計について述べる。 14は二分分類を含む そのうち2つは 多クラス分類(10クラス)を含む。
0.86
Dataset Income Arcene Arrhythmia Bank BlastChar Credit Forest HTRU2 KDD99 Shoppers Philippine QSAR Bio Shrutime Spambase Volkert MNIST dataset income arcene arrhythmia bank blastchar credit forest htru2 kdd99 shopping philippines qsar bio shrutime spambase volkert mnist 0.79
Task Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Task Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary Binary 0.85
Multiclass (10) Multiclass (10) マルチクラス(10)マルチクラス(10) 0.78
# Features # Categorical # Continuous Dataset Size 特徴 #カテゴリー #連続データセットサイズ 0.60
# Positives 14 783 226 16 20 29 49 8 39 17 308 41 11 57 147 784 #陽性者 14 783 226 16 20 29 49 8 39 17 308 41 11 57 147 784 0.76
8 0 0 9 17 0 0 0 3 2 0 0 3 0 0 784 8 0 0 9 17 0 0 0 3 2 0 0 3 0 0 784 0.85
6 783 226 7 3 29 49 8 36 15 308 41 8 57 147 0 6 783 226 7 3 29 49 8 36 15 308 41 8 57 147 0 0.85
32,561 200 452 32,561 200 452 0.72
45,211 7,043 284,807 495,141 17,898 494,021 12,330 5,832 1,055 10,000 4,601 58,310 60,000 45,211 7,043 284,807 495,141 17,898 494,021 12,330 5,832 1,055 10,000 4,601 58,310 60,000 0.41
7,841 88 66 7,841 88 66 0.72
5,289 1,869 492 5,289 1,869 492 0.59
283,301 1,639 97,278 1,908 2,916 356 2,037 1,813 283,301 1,639 97,278 1,908 2,916 356 2,037 1,813 0.46
- # of Neg. - ネグのナンバー。 0.60
% of Positives 24,720 %, 陽性24,720。 0.64
24.08 44.00 14.60 11.70 26.54 0.17 57.22 9.16 19.69 15.47 50.00 33.74 20.37 39.40 24.08 44.00 14.60 11.70 26.54 0.17 57.22 9.16 19.69 15.47 50.00 33.74 20.37 39.40 0.41
- 112 386 39,922 5,174 284,315 211,840 16,259 396,743 10,422 2,916 699 7,963 2,788 - 112 386 39,922 5,174 284,315 211,840 16,259 396,743 10,422 2,916 699 7,963 2,788 0.71
- Table 5: Dataset links - 表5:データセットリンク 0.87
Dataset Income Arcene Arrhythmia Bank BlastChar Credit Forest HTRU2 KDD 99 Shoppers Philippine QSAR Bio Shrutime Spambase Volkert MNIST dataset income arcene arrhythmia bank blastchar credit forest htru2 kdd 99 shopping philippines qsar bio shrutime spambase volkert mnist 0.75
Download Link https://www.kaggle.c om/lodetomasi1995/in come-classification https://archive.ics. uci.edu/ml/machine-l earning-databases/ar cene/ http://odds.cs.stony brook.edu/arrhythmia -dataset/ https://archive.ics. uci.edu/ml/datasets/ bank+marketing https://www.kaggle.c om/blastchar/telco-c ustomer-churn https://www.kaggle.c om/jacklizhi/creditc ard https://kdd.ics.uci. edu/databases/covert ype https://archive.ics. uci.edu/ml/datasets/ HTRU2 http://kdd.ics.uci.e du/databases/kddcup9 9 https://archive.ics. uci.edu/ml/datasets/ Online+Shoppers+Purchasing+Intention+Dataset http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ QSAR+biodegradation https://www.kaggle.c om/shrutimechlearn/c hurn-modelling https://archive.ics. uci.edu/ml/datasets/ Spambase http://automl.chalea rn.org/data http://yann.lecun.co m/exdb/mnist/ Download Link https://www.kaggle.c om/lodetomasi1995/in come-classification https://archive.ics. uci.edu/ml/machine-l earning-databases/ar cene/ http://odds.cs.stony brook.edu/arrhythmia -dataset/ https://archive.ics. uci.edu/ml/datasets/ bank+marketing https://www.kaggle.c om/blastchar/telco-c ustomer-churn https://www.kaggle.c om/jacklizhi/creditc ard https://kdd.ics.uci. edu/databases/covert ype https://archive.ics. uci.edu/ml/datasets/ HTRU2 http://kdd.ics.uci.e du/databases/kddcup9 9 https://archive.ics. uci.edu/ml/datasets/ Online+Shoppers+Purchasing+Intention+Dataset http://automl.chalea rn.org/data https://archive.ics. uci.edu/ml/datasets/ QSAR+biodegradation https://www.kaggle.c om/shrutimechlearn/c hurn-modelling https://archive.ics. uci.edu/ml/datasets/ Spambase http://automl.chalea rn.org/data http://yann.lecun.co m/exdb/mnist/ 0.22
Data preprocessing In each dataset, the categorical features are label encoded, and continuous features are z-normalized before passing them into the embedding layer. データ前処理 各データセットでは、カテゴリ機能はラベルエンコードされ、継続的機能は埋め込み層に渡す前にz正規化される。 0.70
Each feature (or column) has a different missing value token to account for missing data. 各機能(またはカラム)は、欠落したデータを考慮するために異なる値トークンを持つ。
訳抜け防止モード: それぞれの特徴(または列)は異なる値トークンを持つ データの欠落を考慮に入れます
0.75
Additionally, individual datasets contain the following assumptions. さらに、個々のデータセットは以下の仮定を含む。 0.67
In the Arcene, Arrhythmia, and KDD99 datasets, many features have identical values across samples (i.e. Arcene、Arrhythmia、KDD99データセットでは、多くの特徴がサンプル間で同じ値を持っている。 0.75
zero standard deviation), so we have removed these features. 標準偏差ゼロ)なので、これらの機能を取り除きました。 0.64
In the Forest dataset, following [1], we have considered only the top 2 classes as a binary classification problem. フォレストデータセットでは、[1]に従って、上位2クラスのみをバイナリ分類問題として検討している。 0.74
For MNIST, we unravel each image into a vector of 784 features and consider each image as a single row. mnist の場合、各画像を 784 個の特徴のベクトルに展開し、各画像を一つの行として考える。 0.71
Since each feature is of same type in this dataset, we encode all the features into the same embedding space. 各機能は、このデータセットで同じ型なので、すべての機能を同じ埋め込み空間にエンコードします。 0.72
To distinguish the features, we also use positional encodings in the encoding layer. 特徴を区別するため、エンコーディング層では位置符号化も使用します。 0.81
C Complete training details c 完全なトレーニングの詳細 0.73
In each of our experiments, we use a single Nvidia GeForce RTX 2080Ti GPU. それぞれの実験では、Nvidia GeForce RTX 2080Ti GPUを使用しています。 0.91
Individual training runs take between 5 minutes and 6 hours. 個人での訓練は5分から6時間かかる。 0.69
In total, the experiments in this paper account for around 4 GPU days (including semi-supervised experiments and ablation studies). 総じて、本論文における実験は、約4gpu日(半監督実験とアブレーション実験を含む)に相当する。 0.69
For most of the datasets, we use embedding size d = 32. ほとんどのデータセットでは、埋め込みサイズd = 32を使用します。 0.74
For MNIST, we use d = 12, for the Arrhythmia, Philippine, and Credit datasets we used d = 8, for Arcene we use d = 4. mnistの場合、不整脈、フィリピン、クレジットデータセットにd = 12を使い、arceneにd = 8を使い、d = 4を使います。 0.65
The variance in the embedding size is only due to the memory constraints of a single GPU. 組込みサイズのばらつきは、単一のgpuのメモリ制約によってのみ発生する。 0.69
We used L = 6 layers in the SAINT-s variant for most of the datasets except for Arrhythmia, Philippine and Arcene, where we 我々は,不整脈,フィリピン,アルセンを除くほとんどのデータセットに対して,SAINT-s変種におけるL = 6層を用いた。 0.63
14 14 0.85
英語(論文から抽出)日本語訳スコア
use L = 4 due to memory constraints. メモリ制約のため L = 4 を使用する。 0.88
We use dropout of 0.1 in all attention layers. すべての注意層に0.1のドロップアウトを使用します。 0.61
In feed-forward layers, use dropout of 0.1 in the SAINT-s variant, and we use 0.8 in SAINT-i and SAINT models. フィードフォワード層ではSAINT-s変種で0.1のドロップアウトを使い、SAINT-iモデルとSAINTモデルで0.8を使用します。 0.62
We use attention heads h = 8 in all datasets except Arrhythmia, Philippine, Credit, Arcene, and MNIST where we use h = 4 since we are using a lower embedding size. 我々は、Arrhythmia、Philippine、Credit、Arcene、MNISTを除くすべてのデータセットで注目ヘッドh = 8を使用します。
訳抜け防止モード: 我々は、不整脈を除くすべてのデータセットにおいて注意ヘッドh = 8を使用する。 フィリピン、クレディ、アーケード、MNIST 埋め込みサイズが小さいので h = 4 を使います
0.75
Inside the self-attention layer, the q, k, and v vectors are of dimension 16, and in the intersample attention layer, they are of size 64. セルフアテンション層の内部では、q,k,vベクトルは次元16であり、サンプル間アテンション層では大きさ64である。 0.64
Other minor details are shared in the code. その他の詳細はコードで共有されている。 0.68
Positional Encoding Transformers for vision and language typically employ positional encodings along with the patch/word embeddings to retain spatial information. 視覚と言語のための位置符号化トランスフォーマーは通常、空間情報を保持するパッチ/ワード埋め込みと共に位置符号化を使用する。 0.67
These encodings are necessary when all features in a data point are of same type, hence these models use the same function to embed all inputs. これらのエンコーディングは、データポイント内のすべての機能が同じ型である場合に必要となるため、これらのモデルはすべての入力を埋め込むために同じ関数を使用する。 0.68
This is not the case with most of the datasets used in this paper; each feature may be of a different type and thus possesses a unique embedding function. この論文で使われているデータセットの多くはそうではない。それぞれの機能は異なる型であり、そのため独自の埋め込み機能を持っている。 0.73
However, when we train the model on MNIST (treated as tabular data), positional encodings are used since all pixels are of the same type and share a single embedding function. しかし、mnist(表データとして扱う)でモデルをトレーニングする場合、すべてのピクセルが同じ型で単一の埋め込み関数を共有するため、位置符号化が使用される。 0.71
D Additional results Standard errors of datasets shown in main In Table 6, we include standard errors on AUROC scores across the various datasets shared in the main document. d 追加結果 表6に示すデータセットの標準エラーには、メインドキュメントで共有されているさまざまなデータセット全体におけるaurocスコアの標準エラーが含まれています。 0.70
We see that Arrhythmia and Arcene have high standard error across all models which can be attributed to the size of the datasets (400 and 200 datapoints respectively). ArrhythmiaとArceneは、データセットのサイズ(それぞれ400と200のデータポイント)に起因して、すべてのモデルに対して高い標準誤差を持つ。 0.76
Boosting methods are more consistent than previous deep learning approaches, but SAINT’s variants exhibit the same consistency as boosting methods. ブースティングメソッドは従来のディープラーニングアプローチよりも一貫性があるが、SAINTの変種はブースティングメソッドと同じ一貫性を示している。 0.65
Remaining datasets In Table 7, we share the average AUROC scores over 5 runs for the remaining 7 binary classification datasets which are not shown in the main paper. データセットの保持 Table 7では、メインペーパーに示されていない残りの7つのバイナリ分類データセットに対して、平均的なAUROCスコアを5回以上共有しています。 0.68
In Table 8, we show the standard errors over these 7 datasets. 表8では、これらの7つのデータセットに対する標準エラーを示します。 0.67
Table 6: Std. errors on AUROC scores (in %) for SAINT variants and competitors. 表6:Std。 SAINTの変種および競合に対するAUROCの誤差(%)。 0.70
Computed over 5 runs. Columns denoted by † are multi-class problems, and we report standard errors (over 2 runs) on accuracy rather than AUC. 計算は5回以上。 列は多クラス問題であり,AUCよりも精度の基準誤差(2回以上)を報告している。 0.54
Model \ Dataset Logistic Regression RandomForest XGBoost LightGBM CatBoost MLP VIME TabNet Tabtransformer SAINT-s SAINT-i SAINT Model \ Dataset Logistic Regression RandomForest XGBoost LightGBM CatBoost MLP VIME TabNet Tab Transformer SAINT-s SAINT-i SAINT 0.90
Bank Blastchar Arrhythmia Arcene 2.43 0.25 3.29 0.27 1.91 0.15 1.11 0.21 1.62 0.17 0.21 3.46 3.45 2.03 2.72 0.33 2.75 0.34 2.07 0.15 1.78 0.09 0.09 1.41 Bank Blastchar Arrhythmia Arcene 2.43 0.25 3.29 0.27 1.91 0.15 1.11 0.21 1.62 0.17 0.21 3.46 3.45 2.03 2.72 0.33 2.75 0.34 2.07 0.15 1.78 0.09 0.09 1.41 0.44
2.92 1.51 3.03 1.98 2.60 2.76 2.14 6.38 6.45 1.49 3.37 1.94 2.92 1.51 3.03 1.98 2.60 2.76 2.14 6.38 6.45 1.49 3.37 1.94 0.41
0.20 0.70 0.34 0.34 0.19 0.32 0.26 0.30 0.30 0.39 0.22 0.28 0.20 0.70 0.34 0.34 0.19 0.32 0.26 0.30 0.30 0.39 0.22 0.28 0.41
Forest 0.11 0.01 0.01 0.01 0.01 0.68 6.91 0.01 0.01 0.00 0.02 0.01 Forest 0.11 0.01 0.01 0.01 0.01 0.68 6.91 0.01 0.01 0.00 0.02 0.01 0.43
Shoppers 0.41 0.60 0.50 0.48 0.41 0.60 2.74 0.68 0.69 0.33 0.42 0.30 買い物客 0.41 0.60 0.50 0.48 0.41 0.60 2.74 0.68 0.69 0.33 0.42 0.30 0.46
Income Volkert† MNIST† 6.34 0.30 0.15 0.13 0.15 2.74 5.10 0.17 0.17 0.24 0.24 0.27 インカム・ヴォルケルト MNIST 6.34 0.30 0.15 0.13 0.15 0.74 0.10 0.17 0.17 0.24 0.27 0.36
1.33 1.27 0.51 0.64 1.17 1.56 6.67 1.47 1.48 0.49 0.67 0.58 1.33 1.27 0.51 0.64 1.17 1.56 6.67 1.47 1.48 0.49 0.67 0.58 0.41
3.19 4.59 1.98 3.78 1.66 3.74 8.15 2.22 2.24 1.71 1.49 1.13 3.19 4.59 1.98 3.78 1.66 3.74 8.15 2.22 2.24 1.71 1.49 1.13 0.41
E Additional analyses Corrupted training data We show in Figure 6 how the mean AUROC varies as we vary the percentage of the training data that is corrupted. 追加分析 破損したトレーニングデータ 私たちは図6で、AUROCの平均値がどのように変化するかを示します。 0.59
We consider 2 types of corruptions - missing data as shown in Figure 6a and noisy data as shown in Figure 6b. 図6aに示すような欠落データと、図6bに示すような騒々しいデータです。
訳抜け防止モード: 2種類の汚職 - 図6aに示すような欠落データ- 図6bに示すようにノイズの多いデータです。
0.73
We observe that the SAINT model is quite robust across both variants, and the drop in performance is minimal until 70% of training data is corrupted. SAINTモデルは両変種間で非常に堅牢であり、トレーニングデータの70%が破損するまでパフォーマンスの低下は最小限である。 0.70
We also observe that the self-attention variant SAINT-s is more robust in the case of missing data, while the intersample attention variant SAINT-i is more robust in case of noisy data. また、自己注意型SAINT-sは、欠落したデータの場合はより堅牢である一方、間欠的な注意型SAINT-iはノイズの多いデータではより堅牢である。 0.63
Effect of batch size on intersample attention performance (cont.) バッチサイズがサンプル間アテンション性能に及ぼす影響(cont.) 0.82
As discussed in the main body, we examine the affect of batch size on different SAINT variants in Figure 7. 本体で述べたように、図7の異なるSAINT変種に対するバッチサイズの影響について検討する。 0.75
We pick 5 datasets with varying numbers of features and samples. さまざまな機能とサンプルを備えた5つのデータセットを選択します。 0.63
In all cases, we see that the variance in AUROC is minimal when varying the batch size from 32 to 256. いずれの場合も、バッチサイズを32から256に変更する場合、AUROCのばらつきは最小限である。 0.72
15 15 0.85
英語(論文から抽出)日本語訳スコア
Table 7: Average AUROC scores (in %) for SAINT variants and competitors on 7 the remaining binary classification datasets. 表7: 平均 AUROC は SAINT の変種に対して % のスコアを示し、残りのバイナリ分類データセットを 7 で競合する。 0.74
Computed over 5 runs. Model \Dataset Logistic Regression Random Forest XGBoost LightGBM CatBoost MLP VIME TabNet Tab Transformer SAINT-s SAINT-i SAINT 計算は5回以上。 Model \Dataset Logistic Regression Random Forest XGBoost LightGBM CatBoost MLP VIME TabNet Transformer SAINT-s SAINT-i SAINT 0.70
Credit HTRU2 QSAR Bio 96.85 92.66 98.20 76.07 96.83 97.76 82.63 95.24 97.31 98.08 98.12 97.92 Credit HTRU2 QSAR Bio 96.85 92.66 98.20 76.07 96.83 97.76 82.63 95.24 97.31 98.08 98.12 97.92 0.48
98.23 96.41 97.81 98.10 97.85 98.35 97.02 97.58 96.56 98.16 98.36 98.08 98.23 96.41 97.81 98.10 97.85 98.35 97.02 97.58 96.56 98.16 98.36 98.08 0.41
84.06 91.49 92.70 92.97 93.05 79.66 81.04 67.55 91.80 92.89 93.48 93.21 84.06 91.49 92.70 92.97 93.05 79.66 81.04 67.55 91.80 92.89 93.48 93.21 0.41
Shrutime Spambase シュルータイム spambase 0.69
83.37 80.87 83.59 85.36 85.44 73.70 70.24 75.24 85.60 86.40 85.68 86.47 83.37 80.87 83.59 85.36 85.44 73.70 70.24 75.24 85.60 86.40 85.68 86.47 0.41
92.77 98.02 98.91 99.01 98.47 66.74 69.24 97.93 98.50 98.21 98.40 98.54 92.77 98.02 98.91 99.01 98.47 66.74 69.24 97.93 98.50 98.21 98.40 98.54 0.41
Philippine KDD99 99.98 100.00 100.00 100.00 100.00 99.99 99.89 100.00 100.00 100.00 100.00 100.00 Philippine KDD99 99.98 100.00 100.00 100.00 100.00 99.99 99.89 100.00 100.00 100.00 100.00 100.00 0.44
79.48 81.29 85.15 84.97 83.63 79.70 73.51 74.21 83.40 79.30 80.08 81.96 79.48 81.29 85.15 84.97 83.63 79.70 73.51 74.21 83.40 79.30 80.08 81.96 0.41
Table 8: Std. errors on AUROC (in %) scores for SAINT variants and competitors on the 7 remaining binary classification datasets. 表8:Std。 SAINTの亜種に対するAUROC(%)のエラーと、残りの7つのバイナリ分類データセットの競合。
訳抜け防止モード: 表8:Std。 SAINT 変種に対する AUROC ( % ) の誤差 そして、残る7つのバイナリ分類データセットの競合も。
0.76
Computed over 5 runs. Model \Dataset Logistic Regression RandomForest XGBoost LightGBM CatBoost MLP VIME TabNet Tabtransformer SAINT-s SAINT-i SAINT 計算は5回以上。 Model \Dataset Logistic Regression RandomForest XGBoost LightGBM CatBoost MLP VIME TabNet Tab Transformer SAINT-s SAINT-i SAINT 0.65
Credit HTRU2 QSAR Bio 0.61 0.87 0.38 0.72 0.31 0.71 2.18 0.42 0.43 0.32 0.28 0.21 credit htru2 qsar bio 0.61 0.87 0.38 0.72 0.31 0.71 0.18 0.42 0.32 0.28 0.21 0.48
0.26 0.25 0.10 0.13 0.23 0.31 2.52 0.29 0.29 0.10 0.13 0.12 0.26 0.25 0.10 0.13 0.23 0.31 2.52 0.29 0.29 0.10 0.13 0.12 0.41
0.70 0.80 0.45 0.67 0.79 1.00 0.71 2.67 2.70 0.81 1.04 0.91 0.70 0.80 0.45 0.67 0.79 1.00 0.71 2.67 2.70 0.81 1.04 0.91 0.41
Shrutime Spambase シュルータイム spambase 0.69
Philippine KDD99 フィリピンKDD99 0.79
0.53 0.38 0.39 0.58 0.41 1.65 1.15 5.12 5.18 0.68 0.58 0.52 0.53 0.38 0.39 0.58 0.41 1.65 1.15 5.12 5.18 0.68 0.58 0.52 0.41
0.12 0.27 0.08 0.05 0.11 0.15 3.03 0.15 0.15 0.21 0.14 0.29 0.12 0.27 0.08 0.05 0.11 0.15 3.03 0.15 0.15 0.21 0.14 0.29 0.41
0.09 0.09 0.09 0.14 0.31 0.84 4.67 1.21 1.23 0.16 0.20 0.40 0.09 0.09 0.09 0.14 0.31 0.84 4.67 1.21 1.23 0.16 0.20 0.40 0.41
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.41
E.1 Pre-training Ablations E.1 プレトレーニングアブレーション 0.77
In Table 9, we study various configurations of pre-training components. 表9では,プリトレーニングコンポーネントの各種構成について検討する。 0.68
We perform 3 primary studies: we vary (1) projection head, (2) pre-training loss, and (3) data augmentation method. 我々は,(1)投影ヘッド,(2)事前学習損失,(3)データ拡張法という3つの主要な研究を行った。 0.71
Note, the final result in all 3 studies refers to the same experiment (hence the row is repeated), which is the final chosen configuration for our model. すべての3つの研究の最終結果は、同じ実験(行が繰り返されている場合)を指しており、これは我々のモデルの最終選択構成である。 0.79
In addition to the table, in Figure 8, we study the connection between the temperature τ and the type of projection head. 表に加え、図8では温度τと投影ヘッドのタイプとの関係について検討する。 0.64
Table 9: Ablation studies on the pre-training pipeline of SAINT. 表9: SAINTの事前学習パイプラインに関するアブレーション研究。 0.80
We break down the effect of the projection head, pre-training loss, and augmentation method. プロジェクションヘッドの効果, トレーニング前損失, 拡張方法について検討した。 0.55
We report average AUC (in %) over 14 datasets for the case where only 50 points in the dataset are labeled. データセットの50ポイントしかラベル付けされていない場合、平均AUC(%)が14以上のデータセットを報告します。 0.63
Study Variation 研究 バリエーション 0.66
SAINT-s SAINT-i SAINT-S 左院位 0.41
1 2 3 no proj. 1 2 3 プロジェじゃない 0.76
head weight sharing head w. diff proj. 頭 重量共有ヘッド w. diff proj。 0.79
head no pre-training プレトレーニングなし。 0.56
contrastive denoising cosine similarity contra. 対照的に コサイン類似性コントラ。 0.52
+ denois. CutMix mixup + denois CutMixミックスアップ 0.70
CutMix + mixup CutMix + Mixup 0.84
84.26 85.31 86.02 85.14 85.40 84.74 85.03 86.02 82.80 86.01 86.02 84.26 85.31 86.02 85.14 85.40 84.74 85.03 86.02 82.80 86.01 86.02 0.42
83.56 85.20 85.26 83.93 84.42 84.93 84.35 85.26 84.61 84.41 85.26 83.56 85.20 85.26 83.93 84.42 84.93 84.35 85.26 84.61 84.41 85.26 0.42
SAINT 84.90 86.89 86.96 85.78 85.58 86.21 85.70 86.96 85.37 86.45 86.96 SAINT 84.90 86.89 86.96 85.78 85.58 86.21 85.70 86.96 85.37 86.45 86.96 0.44
Effect of projection heads: As described in Section 4, we use two different projection heads, g1(·) and g2(·), to project the contextual representations to lower dimensions and then compute contrastive 射影ヘッドの効果: 第4節で述べられているように、2つの異なる射影ヘッド g1(·) と g2(·) を用いて、文脈表現を下方次元に投影し、コントラスト計算を行う。 0.71
16 16 0.85
英語(論文から抽出)日本語訳スコア
(a) Trendlines of mean AUROC of SAINT’s variants with varying % of missing data. (a) SAINT の変種の平均 AUROC の傾向で、欠落データの % が変化している。 0.78
(b) Trendlines of mean AUROC of SAINT’s variants with varying % of noisy data. (b)ノイズデータの割合が異なるセントの変種の平均オーロラの傾向 0.54
Figure 6: Robustness of SAINT’s variants to data corruptions. 図6: データの腐敗に対するsaintの変形の堅牢性。 0.72
Figure 7: Trend lines of AUROC with varying training batch size. 図7: トレーニングバッチサイズの異なるAUROCのトレンドライン。 0.71
Results shown for 5 datasets 5つのデータセットの結果 0.70
losses. We study three different options for the heads: (1) distinct projection heads (2) heads with weight sharing, and (3) no projection heads at all. 損失 本研究は,(1)異なる投射頭部,(2)重み共有の頭部,(3)全く投射頭部の3つの選択肢について検討した。 0.55
Table 9 shows that using distinct projection heads performs best. 表9は、異なる投影ヘッドの使用が最適であることを示している。 0.53
Varying pre-training loss: We train SAINT’s variants with different loss functions, as shown in Study 2 of Table 9. Varying Pre-training Los: 表9の2に示すように、SAINTの変種を異なる損失関数で訓練する。 0.74
We try denoising and contrastive losses, in addition to a cosine similarity loss on positive pairs (inspired by [6, 12]). 正対([6, 12]にインスパイアされた)のコサイン類似性損失に加えて、ノイズと対照的な損失を減らそうとする。 0.75
The combination of contrastive and denoising consistently yields the best results in all SAINT variants. コントラストとデノジングの組み合わせは、一貫してすべてのサント変種において最良の結果をもたらす。 0.60
Varying the pre-training augmentations: We also try to understand how important it is to use CutMix and mixup to generate augmented embeddings in the pre-training pipeline. 事前トレーニングの強化について: 私たちはまた、事前トレーニングパイプラインに追加の埋め込みを生成するためにCutMixとmixupを使用することがどれほど重要かを理解しようとしています。
訳抜け防止モード: 訓練増補の変遷 私たちはまた いかに重要か理解し cutmixとmixupを使用して、トレーニングパイプラインに拡張埋め込みを生成する。
0.66
We tinker with various configurations in Study 3 of Table 9, and we observe that using these two augmentations in unison results in the best performance across all SAINT variants. 表9のStudio 3では,これら2つの拡張を一斉に使用することで,すべてのSAINT亜種で最高のパフォーマンスが得られることを観察する。 0.69
Figure 8: Temperature and Projection head ablation 図8:温度と投射頭部のアブレーション 0.88
17 0.00.20.40.60.8% of missing data0.700.750.800.85 0.90AUROC(mean)Model SAINTSAINT-iSAINT-s0 .20.40.60.8% of noisy data0.890.900.910.92 AUROC(mean)ModelSAIN TSAINT-iSAINT-s0.80. 9AUROC (mean)dataset = incomedataset = htru2100200batchsize dataset = qsarbio100200batchsi ze0.80.9AUROC (mean)dataset = philippine100200batc hsizedataset = arrhythmiaModelSAINT SAINT-iSAINT-s0.51.0 Temperature, tau0.8250.850AUROC (mean)Projection_hea d = nohead0.51.0Temperat ure, tauProjection_head = diff0.51.0Temperatur e, tauProjection_head = sameModelSAINTSAINT- iSAINT-s 17 0.00.20.40.60.8% of missing data0.700.750.800.85 0.90AUROC(mean)Model SAINTSAINT-iSAINT-s0 .20.40.60.8% of noisy data0.890.900.910.92 AUROC(mean)ModelSAIN TSAINT-iSAINT-s0.80. 9AUROC (mean)dataset = incomedataset = htru2100200batchsize dataset = qsarbio100200batchsi ze0.80.9AUROC (mean)dataset = philippine100200batc hsizedataset = arrhythmiaModelSAINT SAINT-iSAINT-s0.51.0 Temperature, tau0.8250.850AUROC (mean)Projection_hea d = nohead0.51.0Temperat ure, tauProjection_head = diff0.51.0Temperatur e, tauProjection_head = sameModelSAINTSAINT- iSAINT-s 0.62
英語(論文から抽出)日本語訳スコア
F Additional interpretability plots f 追加解釈可能性プロット 0.69
In Figure 9a, we show a self-attention plot for the SAINT-s variant (with L = 1) on MNIST. 図9aでは、MNIST 上の SAINT-s 不変量 (L = 1) に対する自己注意プロットを示す。 0.78
The self-attention in one stage SAINT-s model behaves similar to a one stage SAINT model. 1段階のSAINTモデルにおける自己注意は、1段階のSAINTモデルと同様の振る舞いをする。 0.65
However, when there are more stages, the attention in the last stage is not quite as interpretible. しかし、より多くの段階がある場合、最終段階の注意は必ずしも解釈できない。 0.64
In Figure 9b, we show the intersample attention between a batch of points from different classes in SAINT model on the Volkert dataset. 図9bでは、volkertデータセット上のsaintモデルの異なるクラスからのポイントのバッチ間のサンプル間注意を示す。 0.76
Similarly in Figure 9c, we show intersample attention in the SAINT-i variant on the same batch of points from the Volkert dataset. 図9cでも同様に、Volkertデータセットの同じ点のバッチ上でSAINT-i変種におけるサンプル間注意を示す。 0.70
As mentioned in the main body, the intersample behaviour is not quite as sparse as that of MNIST. 本体で述べたように、サンプル間の挙動はmnistのそれほどまばらではない。 0.55
We hypothesize that the sparsity of the intersample attention layer depends on how separable the classes in the dataset are. サンプル間アテンション層の空間性は、データセット内のクラスがどの程度分離可能かに依存すると仮定する。 0.68
(Volkert is a harder dataset than MNIST). (VolkertはMNISTよりも難しいデータセットです)。 0.86
In Figure 10, we show the t-SNE plots on value vectors for SAINT and SAINT-i variants on Volkert. 図10では、Volkert上のSAINTおよびSAINT-iの値ベクトル上のt-SNEプロットを示す。 0.63
Unlike MNIST, all the classes are attended to equally. MNISTとは異なり、全てのクラスは等しく出席する。 0.83
(a) Self-attn. (a)セルフアット。 0.68
in 1 layered SAINTs on MNIST dataset MNISTデータセット上の1層SAINT 0.83
(b) Intersample attn. (b)インターサンプル attn。 0.79
in SAINT in Volkert dataset VolkertデータセットのSAINT 0.69
(c) Intersample attn. (c)インターサンプル attn。 0.79
in SAINT-i in Volkert dataset VolkertデータセットのSAINT-i 0.72
Figure 9: Visual representations of various attention mechanisms. 図9:様々な注意メカニズムの視覚的表現。 0.87
(a) Self-attention in SAINT-s on MNIST (b,c) Intersample attention in SAINT and SAINT-i on the Volkert dataset. (a)MNIST上のSAINT-sの自己注意(b,c)Volkertデータセット上のSAINTとSAINT-iにおけるSAINT-iの相互注意 0.58
Figure 10: A t-SNE visualization of value vectors in intersample attention layers of SAINT (left) and SAINTi (right) on the Volkert dataset. 図10:Volkertデータセット上のSAINT(左)とSAINTi(右)のサンプル間注目層における値ベクトルのt-SNE視覚化。 0.79
We plot 3000 points in each figure, with classes uniformly represented. 各図で3000点をプロットし、クラスは一様を表す。 0.73
Unlike MNIST, all classes are uniformly attended to in this dataset. MNISTとは異なり、すべてのクラスがこのデータセットに一様に参加する。 0.68
18 0011223445566778899A ttended to001122344556677889 9Points in batch (Labels)001122344556 6778899Attended to001122344556677889 9Points in batch (Labels)15105051015T SNE110.07.55.02.50.0 2.55.07.510.0TSNE2la bels0123456789151050 51015TSNE11050510TSN E2labels0123456789 18 00112234444556677889 9 Attended to00112234455667799 Points in batch (Labels)001122344556 566778899Attended to001122344556566889 9Points in batch (Labels)151050515TSN E110.07.55.02.50.02. 55.07.510.0TSNE2labe ls012345678915105151 51510TSNE11050510TSN E11050510TSNE2labels 012345678989 0.59
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。