Inspired by the feedforward multilayer perceptron (FF-MLP), decision tree
(DT) and extreme learning machine (ELM), a new classification model, called the
subspace learning machine (SLM), is proposed in this work. SLM first identifies
a discriminant subspace, $S^0$, by examining the discriminant power of each
input feature. Then, it uses probabilistic projections of features in $S^0$ to
yield 1D subspaces and finds the optimal partition for each of them. This is
equivalent to partitioning $S^0$ with hyperplanes. A criterion is developed to
choose the best $q$ partitions that yield $2q$ partitioned subspaces among
them. We assign $S^0$ to the root node of a decision tree and the intersections
of $2q$ subspaces to its child nodes of depth one. The partitioning process is
recursively applied at each child node to build an SLM tree. When the samples
at a child node are sufficiently pure, the partitioning process stops and each
leaf node makes a prediction. The idea can be generalized to regression,
leading to the subspace learning regressor (SLR). Furthermore, ensembles of
SLM/SLR trees can yield a stronger predictor. Extensive experiments are
conducted for performance benchmarking among SLM/SLR trees, ensembles and
classical classifiers/regresso rs.
Methodology and Performance Hongyu Fu, Yijing Yang, Student Member, IEEE Vinod K. Mishra, and C.
方法論と性能 ホンユフ、Yijing Yang、学生メンバー、IEEE Vinod K. Mishra、C.。
0.70
-C. Jay Kuo, Fellow, IEEE
-C。 Jay Kuo,フェロー,IEEE
0.53
1 2 2 0 2 y a M 1 1
1 2 2 0 2 y a m 1 1 である。
0.50
] G L . s c [
] G L。 sc [
0.47
1 v 6 9 2 5 0
1 v 6 9 2 5 0
0.43
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract—Inspired by the feedforward multilayer perceptron (FF-MLP), decision tree (DT) and extreme learning machine (ELM), a new classification model, called the subspace learning machine (SLM), is proposed in this work.
Feature-based classification models have been well studied for many decades.
特徴に基づく分類モデルは数十年にわたってよく研究されてきた。
0.61
Feature extraction and classification are treated as two separate modules in the classical setting.
特徴抽出と分類は古典的な設定では2つの別個のモジュールとして扱われる。
0.69
Attention has been shifted to deep learning (DL) in recent years.
近年,ディープラーニング (DL) に注意が移りつつある。
0.61
Feature learning and classification are handled jointly in DL models.
特徴学習と分類はDLモデルで共同で処理される。
0.80
Although the best performance of classification tasks is broadly achieved by DL through back propagation (BP), DL models suffer from lack of interpretability, high computational cost and high model complexity.
SVM, DT and FF-MLP share one common idea, i.e., feature space partitioning.
SVM、DT、FF-MLPは1つの共通アイデアを共有している。
0.64
Yet, they achieve this objective by different means.
しかし、異なる方法でこの目標を達成している。
0.71
SVM partitions the space by leveraging kernel functions and support vectors.
SVMはカーネル関数とサポートベクタを利用して空間を分割する。
0.77
DT partitions one space into two subspaces
DT は 1 つの空間を 2 つの部分空間に分割する
0.51
Hongyu Fu, Yijing Yang and C.
香港府、李氏、C氏。
0.28
-C. Jay Kuo are with Ming Hsieh Department of Electrical and Computer Engineering, University of Southern California, Los Angeles, CA 90089, USA, e-mails: hongyufu@usc.edu (Hongyu Fu), yijingya@usc.edu (Yijing Yang) and cckuo@ee.usc.edu (C.-C. Jay Kuo).
-C。 Jay Kuoは、南カリフォルニア大学、ロサンゼルス校、CA 90089, USAのMing Hsieh Department of Electrical and Computer Engineeringの電子メール:hongyufu@usc.edu (Hongyu Fu)、yijingya@usc.edu (Yijing Yang)、cckuo@ee.usc.edu (C.-C. Jay Kuo)と共にいる。
0.63
Vinod K. Mishra is with Army Research Laboratory, Adelphi, Maryland,
Vinod K. Mishraはメリーランド州アデルフィの陸軍研究所に勤務している。
0.65
USA, e-mail: vinod.k.
米国、eメール:vinod.k。
0.68
mishra.civ@army.mil (Vinod K. Mishra)
mishra.civ@army.mil (Vinod K. Mishra)
0.38
This material is based on research sponsored by US Army Research
この素材は アメリカ陸軍の研究が後援する研究に基づいています
0.73
Laboratory (ARL) under contract number W911NF2020157.
契約番号はW911NF2020157。
0.46
by selecting the most discriminant feature one at a time recursively.
一度に最も識別しやすい特徴を 再帰的に選びます
0.68
DT tends to overfit the training data when the tree depth is high.
dtは木の深さが高いとトレーニングデータに過度に適合する傾向がある。
0.61
To avoid it, one can build multiple DTs, each of which is a weak classifier, and their ensemble yields a strong one, e g , the random forest (RF) classifier [6].
Built upon linear discriminant analysis, FF-MLP uses the Gaussian mixture model (GMM) to capture feature distributions of multiple classes and adopts neuron pairs with weights of opposite signed vectors to represent partitioning hyperplanes.
The complexity of SVM and FF-MLP depends on the sample distribution in the feature space.
SVMとFF-MLPの複雑さは、特徴空間のサンプル分布に依存する。
0.85
It is a nontrivial task to determine suitable partitions when the feature dimension is high and/or the sample distribution is complicated.
特徴次元が高い場合やサンプル分布が複雑である場合、適切なパーティションを決定するのは簡単ではない。
0.75
These challenges could limit the effectiveness and efficiency of SVM and FF-MLP.
これらの課題は、SVMとFF-MLPの有効性と効率を制限できる。
0.59
Selecting a partition in DTs is easier since it is conducted on a single feature.
DTでパーティションを選択するのは、単一の機能で実行されるため、簡単です。
0.69
Yet, the simplicity is paid by a price.
しかし、シンプルさは価格によって決まる。
0.70
That is, the discriminant power of an individual feature is weak, and a DT results in a weak classifier.
すなわち、個々の特徴の判別力は弱く、DTは弱い分類器となる。
0.57
As proposed in ELM [5], another idea of subspace partitioning is to randomly project a high-dimensional space to a 1D space and find the optimal split point in the associated 1D space.
ELM [5] で提案されたように、部分空間分割の別の考え方は、1D空間に高次元空間をランダムに投影し、関連する1D空間の最適分割点を見つけることである。
0.71
Although ELM works theoretically, it is not efficient in practice if the feature dimension is high.
ELMは理論的に機能するが、特徴次元が高い場合、実際は効率が良くない。
0.78
It takes a large number of trials and errors in finding good projections.
優れたプロジェクションを見つけるには、多くの試行とエラーが必要です。
0.59
A better strategy is needed.
より良い戦略が必要だ。
0.86
By analyzing pros and cons of SVM, FF-MLP, DT and ELM, we attempt to find a balance between simplicity and effectiveness and propose a new classification-oriented machine learning model in this work.
Since it partitions an input feature space into multiple discriminant subspaces in a hierarchical manner, it is named the subspace learning machine (SLM).
First, SLM identifies subspace S0 from X. If the dimension of X is low, we set S0 = X. If the dimension of X is high, we remove less discriminant features from X so that the dimension of S0 is lower than that of X.
まず、SLM は X から部分空間 S0 を識別し、X の次元が低ければ S0 = X とする。 訳抜け防止モード: まず、slm は x から部分空間 s0 を識別する。 x の次元が高ければ、s0 = x とする。 x から差別的な特徴を取り除き s0 の次元は x の次元よりも小さい。
0.58
Next, SLM uses probabilistic projections of features in S0 to yield p 1D subspaces and find the optimal partition for each of them.
次に、SLM は S0 の特徴の確率的射影を用いて p 1D の部分空間を求め、それぞれに最適な分割を求める。
0.68
This is equivalent to partitioning S0 with 2p hyperplanes.
これは S0 を 2p の超平面で分割することと同値である。
0.49
A criterion is developed to choose the best q partitions that yield 2q partitioned subspaces among them.
We assign S0 to the root node of a decision tree and the intersections of 2q subspaces to its child nodes of depth one.
決定木の根ノードにs0を割り当て、深さ1の子ノードに2q部分空間の交点を割り当てる。
0.74
The partitioning process is recursively applied at each child node to build an SLM tree until stopping criteria are met, then each leaf node makes a prediction.
Generally, an SLM tree is wider and shallower than a DT.
一般的に、SLMツリーはDTよりも広く、浅い。
0.64
The prediction capability of an SLM tree is stronger than that of a single DT since it allows multiple decisions at a decision node.
SLMツリーの予測能力は、決定ノードでの複数の決定を可能にするため、単一のDTよりも強い。
0.69
英語(論文から抽出)
日本語訳
スコア
Its performance can be further improved by ensembles of multiple SLM trees obtained by bagging and boosting.
その性能は、複数のSLM木の包み込みと補強によりさらに向上することができる。
0.70
The idea can be generalized to regression, leading to the subspace learning regressor (SLR).
このアイデアは回帰に一般化することができ、サブスペース学習回帰器(SLR)へと導かれる。
0.65
Extensive experiments are conducted for performance benchmarking among individual SLM/SLR trees, multi-tree ensembles and several classical classifiers and regressors.
They show that SLM and SLR offer light-weight high-performance classifiers and regressors, respectively.
彼らはSLMとSLRがそれぞれ軽量なハイパフォーマンス分類器と回帰器を提供することを示した。
0.53
The rest of this paper is organized as follows.
本論文の残りは以下のとおり整理される。
0.76
The SLM model is introduced in Sec.
SLMモデルはSecに導入されている。
0.70
II. The ensemble design is proposed in Sec.
II。 アンサンブルデザインはsecで提案されている。
0.63
III. Performance evaluation and benchmarking of SLM and popular classifiers are given in Sec.
III。 SLMと人気のある分類器の性能評価とベンチマークはSec.jsで行われている。
0.66
IV. The generalization to SLR is discussed in Sec.
IV。 SLR への一般化は Sec.NET で議論されている。
0.47
V. The relationship between SLM/SLR and other machine learning methods such as classification and regression tree (CART), MLP, ELM, RF and Gradient Boosting Decision Tree (GBDT) [7] is described in Sec.
(4) if the lth sample belongs to class k, where 1 ≤ k, k(cid:48) ≤ K. Our goal is to partition the feature space, RD, into multiple subspaces hierarchically so that samples at leaf nodes are as pure as possible.
It means that the majority of samples at a node is from the same class.
これは、ノードのほとんどのサンプルが同じクラスから来ていることを意味する。
0.76
Then, we can assign all samples in the leaf node to the majority class.
すると、リーフノードのすべてのサンプルをマジョリティクラスに割り当てることができます。
0.67
This process is adopted by a DT classifier.
このプロセスはDT分類器によって採用される。
0.69
The root node is the whole sample space, and an intermediate or leaf node corresponds to a partitioned subspace.
根ノードはサンプル空間全体であり、中間またはリーフノードは分割された部分空間に対応する。
0.78
We use S0 to represent the sample space at the root node and Sm, m = 1,··· , M, to denote subspaces of child nodes of depth m in the tree.
我々はS0を用いて根ノードのサンプル空間を表現し、Sm, m = 1,··· , M を木内の深さ m の子ノードの部分空間を表す。
0.81
The efficiency of traditional DT methods could be poten-
従来のDT法の効率性について-
0.82
tially improved by two ideas.
2つのアイデアによって 改善されました
0.46
They are elaborated below. 2
以下に詳述する。 2
0.48
(a) (b) Fig. 1.
(a) (b) 図1。
0.38
(a) An illustration of SLM, where space S0 is partitioned into 4 subspaces with two splits, and
(a)空間s0を2つの分割からなる4つの部分空間に分割するslmの例
0.82
(b) the corresponding SLM tree with a root note and four child nodes.
b) ルートノートと4つの子ノードを持つ対応するSLMツリー。
0.73
The DT is a special case of Eq (5), where a is set to the dth basis vector, ed, 1 ≤ d ≤ D. On one hand, this choice simplifies computational complexity, which is particularly attractive if D >> 1.
dt は eq (5) の特別な場合であり、a は d 番目の基底ベクトル ed, 1 ≤ d ≤ d に設定される。 訳抜け防止モード: DT は Eq ( 5 ) の特別な場合である。 a は d 基底ベクトル ed にセットされます 1 ≤ d ≤ D 一方、この選択は計算複雑性を単純化する。 D > > 1 であれば特に魅力的である。
0.79
On the other hand, if there is no discriminant feature Fd, the decision tree will not be effective.
一方、識別可能な特徴fdが存在しない場合には、決定木は有効ではない。
0.56
It is desired to find a discriminant direction, a, so that the subspace, Fa, has a more discriminant power at a low computational cost.
Although the high-level ideas are straightforward, their effective implementations are nontrivial.
ハイレベルなアイデアは単純だが、効果的な実装は自明ではない。
0.53
They will be detailed in the next subsection. 1) Partitioning in flexibly chosen 1D subspace:
次の節で詳述する。 1) 柔軟に選択された1次元部分空間の分割
0.53
We may consider a general projected 1D subspace defined by
定義した一般射影1次元部分空間を考えることができる。
0.55
Fa = {f (a) | f (a) = aT x},
Fa = {f (a) | f (a) = aT x},
0.40
where a = (a1,··· , ad,··· , aD)T ,
どこに a = (a1,··· , ad,··· , aD)T である。
0.74
||a|| = 1,
||a|| = 1 である。
0.48
(5) (6) B. Methodology
(5) (6) B.方法論
0.56
Subspace partitioning in a high-dimensional space plays a fundamental role in the design of powerful machine learning classifiers.
高次元空間における部分空間分割は、強力な機械学習分類器の設計において基本的な役割を果たす。
0.68
Generally, we can categorize the partitioning strategies into two types:
一般的に、分割戦略を2つのタイプに分類できる。
0.77
1) search for an optimal split point in a projected 1D space (e g , DT) and
1)投影された1次元空間(例えば、dt)における最適分割点の探索と、
0.82
2) search for an optimal splitting hyperplane in a high-dimensional space (e g , SVM
2)高次元空間(例えばSVM)における最適分割超平面の探索
0.77
英語(論文から抽出)
日本語訳
スコア
and FF-MLP).
およびff-mlp)。
0.51
Mathematically, both of them can be expressed in form of
数学的には、どちらも形式的に表現できる。
0.78
convenient choice of the cost function is the entropy value as defined by
コスト関数の便利な選択は、定義されたエントロピー値である
0.84
3 aT x − b = 0,
3 x − b = 0 である。
0.57
(7) where −b is called the bias and
(7) ここで −b はバイアスと呼ばれ
0.60
a = (a1,··· , ad,··· , aD)T ,
a = (a1,··· , ad,··· , aD)T である。
0.80
||a|| = 1,
||a|| = 1 である。
0.48
(8) is a unit normal vector that points to the surface normal direction.
(8) 表面の正規方向を指し示す 単位正規ベクトルです
0.47
It is called the projection vector.
これは射影ベクトルと呼ばれる。
0.78
Then, the full space, S, is split into two half subspaces:
そして、全空間 S は2つの半部分空間に分割される。
0.82
S+ : aT x ≥ b, and S− : aT x < b.
s+ : を x ≥ b で、s− : を x < b で表す。
0.77
(9) The challenge lies in finding good projection vector a so that samples of different classes are better separated.
(9) 課題は、異なるクラスのサンプルがより分離されるように、良い射影ベクトル a を見つけることである。
0.54
It is related to the distribution of samples of different classes.
それは異なるクラスのサンプルの分布に関連している。
0.83
For the first type of classifiers, they pre-select a set of candidate projection vectors, try them out one by one, and select the best one based on a certain criterion.
The complexity of the first type is significantly lower than that of the second type.
第1型の複雑さは第2型の複雑さよりも著しく低い。
0.70
In SLM, we attempt to find a mid-ground of the two.
SLMでは,2つの中盤を見つけようとする。
0.59
That is, we generate a new 1D space as given by Fa = {f (a) | f (a) = aT x},
それは すなわち、Fa = {f (a) | f (a) = aT x} で与えられるような新しい 1D 空間を生成する。
0.76
(10) where a is a vector on the unit hypersphere in RD as defined in Eq (8).
(10) ここで a は Eq (8) で定義されるRD の単位超球面上のベクトルである。
0.80
By following the first type of classifier, we would like to identify a set of candidate projection vectors.
最初のタイプの分類器に従うことで、候補の射影ベクトルのセットを識別したい。
0.72
Yet, their selection is done in a probabilistic manner.
しかし、それらの選択は確率的に行われる。
0.81
Generally, it is not effective to draw a on the unit hypersphere uniformly.
一般に、単位超球面上のaを一様に描画することは有効ではない。
0.65
The criterion of effective projection vectors and their probalisitic selection will be presented in Secs.
有効射影ベクトルの基準とその確率的選択は Sec で示される。
0.63
II-B1-II-B3.
ii-b1-ii-b3型。
0.19
Without loss of generality, we primarily focus on the projection vector selection at the root node in the following discussion.
一般性の喪失がなければ、次の議論ではルートノードにおける射影ベクトルの選択に主に焦点をあてる。
0.70
The same idea can be easily generalized to child nodes.
同じアイデアを子ノードに簡単に一般化することができる。
0.71
1) Selection Criterion: We use the discriminant feature test (DFT) [8] to evaluate the discriminant quality of the projected 1D subspace as given in Eq (10).
It is summarized below. For a given projection vector, a, we find the minimum and the maximum of projected values f (a) = aT x, which are denoted by fmin and fmax, respectively.
以下にまとめる。 与えられた射影ベクトル a に対して、それぞれ fmin と fmax で表される射影値 f(a) = aT x の最小値と最大値を求める。 訳抜け防止モード: 以下にまとめる。 与えられた射影ベクトル a に対して、最小値を求める。 そして、投影された値 f ( a ) = aT x の最大値。 fmin と fmax で表される。
0.61
We partition interval [fmin, fmax] into B bins uniformly and use bin boundaries as candidate thresholds.
間隔 [fmin, fmax] を b ビンに一様に分割し、bin 境界を候補しきい値として使用する。
0.70
One threshold, tb, b = 1,··· , B − 1, partitions interval [fmin, fmax] into two subintervals that define two sets:
1つのしきい値 tb, b = 1,···· , b − 1, 間隔 [fmin, fmax] を2つの集合を定義する2つの部分インターバルに分割する。
0.79
Fa,tb,+ = {f (a) | aT x ≥ tb}, Fa,tb,− = {f (a) | aT x < tb}.
Fa,tb,+ = {f (a) | aT x ≥ tb}, Fa,tb,− = {f (a) | aT x < tb} である。
0.81
The bin number, B, is typically set to 16 [8].
ビン数 b は通常 16 [8] に設定される。
0.68
(11) (12) The quality of a split can be evaluated with the weighted sum of loss functions defined on the left and right subintervals:
4) SLM Tree Construction: We illustrate the SLM tree construction process in Fig 3.
4) SLM木構築: 図3のSLM木構築プロセスについて説明する。
0.76
It contains the following steps. 1) Check the discriminant power of D input dimensions and find discriminant input subspace S0 with D0 dimensions among D.
以下の手順がある。 1) D 入力次元の判別パワーを確認し、D 内の D0 次元の判別入力部分空間 S0 を求める。
0.69
2) Generate p projection vectors that project the selected input subspace to p 1D subspaces.
2) 選択された入力部分空間をp 1d部分空間に投影するp射影ベクトルを生成する。
0.70
The projected space is denoted by ˜S.
射影空間は .S で表される。
0.69
3) Select the best q 1D spaces from p candidate subspaces based on discriminability and correlation and split the node accordingly, which is denoted by S1.
3) 識別可能性と相関に基づいて p 候補部分空間から最適な q 1D 空間を選択し、S1 で表されるノードを分割する。
0.83
The node split process is recursively conducted to build nodes of the SLM tree.
ノード分割プロセスは、SLMツリーのビルドノードに対して再帰的に実行される。
0.70
The following stopping criteria are adopted to avoid overfitting at a node.
ノードのオーバーフィットを避けるために、以下の停止基準が適用される。
0.61
1) The depth of the node is greater than user’s pre-selected threshold (i.e. the hyper-parameter for the maximum depth of an SLM tree).
Ensemble methods are commonly used in the machine learning field to boost the performance.
アンサンブルメソッドは、パフォーマンスを高めるために機械学習の分野で一般的に使用される。
0.67
An ensemble model aims to obtain better performance than each constituent model alone.
アンサンブルモデルは、各構成モデル単独よりも優れた性能を得ることを目指している。
0.64
With DTs as the constituent weak learners, the bootstrap aggregating or bagging method, (e g , RF) and the boosting method (e g GBDT) are the most popular ensemble methods.
Fig. 2. Illustration of the probabilistic selection process, where the envelop function Ad that provides a bound on the magnitude of coefficients a(cid:48) d in the orientation vector.
図2。 確率的選択過程の例では、向きベクトルの係数 a(cid:48) d の大きさに境界を与えるエンベロープ関数 ad がある。
0.66
The dimensions with black dots are selected dimensions, and dots in one vertical line are integers for selection for each dimension.
黒い点を持つ次元は選択次元であり、1つの垂直線の点は各次元の選択のための整数である。
0.73
In this example, the selected dimensions are a(cid:48) 6.
この例では、選択された次元は a(cid:48) 6 である。
0.66
For each trial, we select one black dot per vertical line to form an orientation vector.
各試行で、垂直線ごとに1つの黒点を選択して向き付けベクトルを形成する。
0.71
The search can be done exhaustively or randomly with the uniform distribution.
探索は一様分布で徹底的にあるいはランダムに行うことができる。
0.75
5 and a(cid:48)
5およびa(cid:48)
0.44
1, a(cid:48)
1, a(cid:48)
0.46
2, a(cid:48)
2, a(cid:48)
0.46
4, a(cid:48)
4, a(cid:48)
0.46
vector coefficients probabilistically under the uniform distribution.
均一分布の下で確率的にベクトル係数。
0.77
• R: the number of selected coefficients, a(cid:48)
•R:選択された係数の数、a(cid:48)
0.85
d, in Eq (18)
d, in Eq (18)
0.43
If D is large, we only select a subset of R coefficients, where R << D to save computation.
D が大きければ R 係数の部分集合のみを選び、R<<D は計算を節約する。 訳抜け防止モード: D が大きければ、R 係数の部分集合のみを選択する。 ここで R < < < D は計算を保存する。
0.73
The dynamic ranges of the remaining (D − R) coefficients are all set to zero.
残りの (D − R) 係数の動的範囲はすべて 0 に設定される。
0.79
By fixing parameters β, α and R in one round of a generation, the total search space of a to be tested by DFT lies between
1世代1ラウンドでパラメータ β, α, R を固定することにより、DFT によって検査される a の総探索空間は、その中間に位置する。 訳抜け防止モード: パラメータ β, α, R を1世代1ラウンドで固定する。 DFTによって検査されるaの総検索空間は、その中間にある
0.77
U.B. = ΠR
U.B. = .R.
0.27
d=1(2Ad + 1), L.B. = ΠD
d=1(2Ad + 1), L.B. = .D.
0.37
d=D+1−R(2Ad + 1),
d=D+1−R(2Ad + 1)
0.33
(22) where U.B and L.B. mean upper and lower bounds, respectively.
(22) U.B. と L.B. はそれぞれ上界と下界を意味する。
0.75
To increase the diversity of a furthermore, we may use multiple rounds in the generation process with different β, α and R parameters.
We use Fig 2 as an example to illustrate the probabilistic selection process.
確率的選択過程を説明する例として、Fig 2 を用いる。
0.74
Suppose input feature dimension D = 10 and R is selected as 5, we may apply α0 as 10 and α as 0.5 for bounding the dynamic range of the a(cid:48) d selections.
入力特徴次元 D = 10 と R を 5 とし、α0 を 10 とし、α0 を 0.5 とし、a(cid:48) d の選択の動的範囲を束縛する。
0.77
During the probabilistic selection, the R = 5 coefficients are selected with the candidate integers for the corresponding a(cid:48) d marked as black dots, the unselected D− R coefficients are marked as gray and the actual coefficients are set to zero.
A. SLM Forest For traditional DTs, RF is the most popular bagging ensemble algorithm.
A.SLM林 従来のDTでは、RFは最も人気のあるベージアンサンブルアルゴリズムである。
0.54
It consists of a set of tree predictors, where each tree is built based on the values of a random vector sampled independently and with the same distribution for all trees in the forest [6].
With the Strong Law of Large Numbers, the performance of RF converges as the tree number increases.
大数の強い法則により、木数が増加するにつれてRFの性能は収束する。
0.70
As compared to the individual DTs, significant performance improvement is achieved with the combination of many weak decision trees.
個々のdtsと比較して、多くの弱い決定木の組み合わせにより、著しい性能改善が達成されている。
0.63
Motivated by RF, SLM Forest is developed by learning a series of single SLM tree models to enhance the predictive performance of each individual SLM tree.
Besides, the probabilistic projection provides diversity between different SLM models.
さらに、確率予測は異なるSLMモデル間の多様性を提供する。
0.71
Following RF, SLM Forest takes the majority vote of the individual SLM trees as the ensemble result for classification tasks, and it adopts the mean of each SLM tree prediction as the ensemble result for regression tasks.
In other words, a high performance RF model can be obtained through the combination of strong and uncorrelated individual trees.
言い換えれば、強木と非相関木の組み合わせにより、高性能なRFモデルを得ることができる。
0.69
The model diversity of RF is achieved through bagging of the training data and feature randomness.
RFのモデルの多様性は、トレーニングデータのバッジと特徴ランダム性によって達成される。
0.68
For the former, RF takes advantage of the sensitivity of DTs to the data they are trained on, and allows each individual tree to randomly sample from the dataset with replacement, resulting in different trees.
For the latter, each tree can select features only from a random subset of the whole input features space, which forces diversity among trees and ultimately results in lower correlation across trees for better performance.
SLM Forest achieves diversity of SLM trees more effectively through probabilistic selection as discussed in Sec.
SLMフォレストは、Secで議論された確率的選択により、SLM木の多様性をより効果的に達成する。
0.51
II-B2. For partitioning at a node, we allow a probabilistic selection of D0 dimensions from the D input feature dimensions by taking the discriminant ability of each feature into account.
In Eq (19), β is a hyper-parameter used to control the probability distribution among input features.
Eq (19) では、β は入力特徴間の確率分布を制御するために用いられる超パラメータである。
0.78
A larger β value has higher preference on more discriminant features.
β値が大きいほど、より差別的な特徴が優先される。
0.72
Furthermore, the envelope vector, Ad in Eq (21) gives a bound to each element of the orientation vector.
さらに、eq (21) のエンベロープベクトル ad は、向きベクトルの各要素に束縛を与える。
0.66
It also attributes to the diversity of SLM trees since the search space of projection vectors are determined by hyper-parameter α.
また、射影ベクトルの探索空間は超パラメータαによって決定されるため、SLM木の多様性にも寄与する。
0.65
Being similar to the replacement idea in RF, all training samples and all feature dimensions are kept as the input at each node splitting to increase the strength of individual SLM trees.
With individual SLM trees stronger than individual DTs and novel design in decorrelating partitioning planes, SLM Forest
個別のslm木が個別のdtsよりも強く, 分割平面, slm林に新たな設計を施す
0.70
Ψ(t) ≈ L(cid:88)
~(t) ~ L(cid:88)
0.82
l=1 5 achieves better performance and faster converge than RF.
l=1 5 RFよりも優れた性能と高速な収束を実現する。
0.46
This claim is supported by experimental results in Sec.
この主張はSecの実験結果によって支持される。
0.58
IV. B. SLM Boost
IV。 B. SLM ブースト
0.59
With standard DTs as weak learners, GBDT [7] and XGBoost [9], [10] can deal with a large amount of data efficiently and achieve the state-of-the-art performance in many machine learning problems.
(25) The objective function for the first t trees is defined as
(25) 最初の t 木の目的関数は、次のように定義される。
0.52
T(cid:88) t=1
T(第88回) t=1 である。
0.45
L(cid:88) Ω =
l(cid:88) Ω =
0.40
γ(yl, ˆy(t)
γ(yl, ]y(t) である。
0.70
l ), (26)
l)であった。 (26)
0.38
l=1 where ˆy(t) is the prediction of sample l with all t trees and l γ(yl, ˆy(t) l ) denotes the training loss for the model with a sequence of t trees.
l=1 ここで y(t) はすべての t 木を持つ標本 l の予測であり、l γ(yl, y(t) l ) は t 木の列を持つモデルの訓練損失を表す。
0.51
The log loss and the mean squared error are commonly utilized for classification and regression tasks as the training loss, respectively.
ログ損失と平均二乗誤差はそれぞれ、トレーニング損失として分類タスクと回帰タスクに使用される。
0.72
It is intractable to learn all trees at once.
一度にすべての木を学ぶのは難しかった。
0.60
To design SLM Boost, we follow the GBDT process and use the additive strategy.
SLM Boostを設計するために、GBDTプロセスに従い、加算戦略を使用する。
0.72
That is, by fixing what have been learned with all previous trees, SLM Boost learns a new tree at each time.
つまり、以前のすべての木で学んだことを修正することで、slm boostは毎回新しい木を学習する。
0.74
Without loss of generality, we initialize the model prediction as 0.
一般性を失うことなく、モデル予測を 0 と初期化する。
0.73
Then, the learning process is
そして、学習プロセスは、
0.70
ˆy(0) l ˆy(1) l
l(0)l(0)l(y(1)l) である。
0.51
= 0 = f1(xl) = ˆy(0) ···
= 0 = f1(xl) = y(0) ····
0.45
l + f1(xl)
l + f1(xl)
0.49
ˆy(t) l
l (複数形 ls)
0.75
= fi(xl) = ˆy(t−1)
= fi(xl) = y(t−1)
0.45
l + ft(xl)
うーん + ft(xl)
0.44
t(cid:88) i=1
t(cid:88) i=1 である。
0.36
(27) (28) (29)
(27) (28) (29)
0.42
(30) Then, the objective function to learn the tth tree can be written as
(30) そして、t木を学ぶための目的関数を次のように書ける。
0.57
Ψ(t) = γ(yl, ˆy(t−1)
シュ(t) = γ(yl, ]y(t−1) である。
0.61
l + ft(xl)).
うーん + ft(xl)。
0.41
(31) L(cid:88)
(31) l(cid:88)
0.40
l=1 Furthermore, we follow the XGBoost process and take the Taylor Expansion of the loss function up to the second order to approximate the loss function in general cases.
Then, the objective function can be approximated as
そして、目的関数を近似することができる。
0.80
(γ(yl, ˆy(t−1)
(γ(yl,...y(t−1))
0.42
l ) + glft(xl) +
うーん ) + glft(xl) +
0.44
1 2 hlf 2 t (xl)) + C, (32)
1 2 ハルフ2 t (xl)) + C, (32)
0.48
英語(論文から抽出)
日本語訳
スコア
where gl and hl are defined as gl = ∂ˆy(t−1) hl = ∂2
gl と hl は gl = もありません(t−1) hl = ∂2
0.49
ˆy(t−1)
y(t−1) である。
0.44
l l γ(yl, ˆy(t−1) γ(yl, ˆy(t−1)
うーん うーん γ(yl, sy(t−1) γ(yl, sy(t−1)
0.46
l l ) )
うーん うーん ) )
0.44
(33) (34) After removing all constants, the objective function for the tth SLM tree becomes
(33) (34) すべての定数を除去した後、第t次SLMツリーの目的関数となる
0.50
[glft(xl) +
[glft(xl) +
0.42
1 2 hlf 2 t (xl)]
1 2 ハルフ2 t (xl)]
0.46
(35) L(cid:88)
(35) l(cid:88)
0.40
l=1 With individual SLM trees stronger than individual DTs, SLM Boost achieves better performance and faster convergence than XGBoost as illustrated by experimental results in Sec.
By following [4], we removed samples with the physically impossible zero value for glucose, diastolic blood pressure, triceps skin fold thickness, insulin, or BMI and used the remaining 392 samples for consistent experimental settings.
For consistency with [4], we remove the feature dimension that has the zero variance from the data.
4] との一貫性のために、データからゼロのばらつきを持つ特徴次元を取り除きます。
0.69
9) Banknote Dataset.
9) 紙幣データセット。
0.77
The banknote authentication dataset [14] classifies whether a banknote is genuine or forged based on the features extracted from the wavelet transform of banknote images.
The feature dimension of the first three datasets is two while that of the last six datasets is higher than two.
最初の3つのデータセットの特徴次元は2であり、最後の6つのデータセットの特徴次元は2より大きい。
0.71
The first three are synthetic ones, where 500 samples per class are generated with 30% noisy samples in the decision boundary for 2New-Moons and 20% noisy samples in the decision boundary of Circle-and-Ring and 4-New-Moons.
The neuron numbers of its input and output layers are equal to the feature dimension and the class number, respectively.
入力層と出力層のニューロン数は、それぞれ特徴次元とクラス番号に等しい。
0.60
The neuron numbers at each hidden layer are hyper-parameters determined adaptively by a dataset.
各隠れ層のニューロン番号はデータセットによって適応的に決定されるハイパーパラメータである。
0.63
BPMLP has the same architecture as FF-MLP against the same dataset.
BPMLPは同じデータセットに対してFF-MLPと同じアーキテクチャを持つ。
0.77
Its model parameters are initialized by those of FFMLP and trained for 50 epochs.
モデルパラメータはFFMLPで初期化され、50エポックで訓練される。
0.71
For the two SVM models, we conduct grid search for hyper-parameter C in LSVM and hyper-parameters C and γ in SVM/RBF for each of the nine datasets to yield the optimal performance.
2つのSVMモデルに対して,SVM における超パラメータ C と SVM/RBF における超パラメータ C と γ の格子探索を行い,最適性能を得る。
0.81
For the DT model, the weighted entropy is used as the loss function in node splitting.
DTモデルでは、重み付きエントロピーがノード分割における損失関数として使用される。
0.78
We do not set the maximum depth limit of a tree, the minimum sample number and the minimum loss decrease required as the stopping criteria.
For the ensemble of DT models (i.e., RF and XGBoost), we conduct grid search for the optimal tree depth and the learning rate of XGBoost to ensure that they reach the optimal performance for each dataset.
The number of trees is set to 100 to ensure convergence.
木の数は収束を保証するために100に設定される。
0.70
The hyper-parameters of SLM Baseline (i.e., with one SLM tree) include D0, p, Aint, α, β and the minimum number of samples used in the stopping criterion.
For the three synthetic 2D datasets (i.e. circle-and-ring, 2new-moons and 4-new-moons), the gain of SLM over MLP is relatively small due to noisy samples.
(c) 4-new-moon. One ground truth sample of the training data, the ground truth of the test data and the SLM predicted results are shown in the first, second and third rows, respectively.
Since FF-MLP and BP-MLP share the same architecture, their model sizes are the same.
FF-MLPとBP-MLPは同じアーキテクチャであるため、モデルサイズは同じである。
0.76
It is calculated by summing up the weight and bias numbers of all neurons.
全ニューロンの重みとバイアス数を合計して計算する。
0.60
The model parameters of LSVM and SVM/RBF can be
LSVM と SVM/RBF のモデルパラメータは
0.77
computed as SVM Parameter # = L + 1 + (D + 2)NSV ,
計算 SVMパラメータ # = L + 1 + (D + 2)NSV ,
0.51
(36) where L, D and NSV denote the number of training samples,
(36) L、D、NSVは、トレーニングサンプルの数を表す。
0.56
the feature dimension and the number of support vectors, respectively.
特徴次元とサポートベクトルの数はそれぞれである。
0.72
The first term in Eq (36) is the slack variable for each training sample.
eq (36) の最初の用語は、各トレーニングサンプルのslack変数である。
0.82
The second term denotes the bias.
第二項は偏見を表す。
0.66
The last term comes from the fact that each support vector has D feature dimensions, one Lagrange dual coefficient, and one class label.
最後の項は、各サポートベクトルが D 個の特徴次元、1つのラグランジュ双対係数、1つのクラスラベルを持つという事実に由来する。
0.69
The model sizes of DTs depend on the number of splits learned during the training process, and there are two parameters learned during each split for feature selection and split value respectively, the sizes of DTs are calculated as two times of the number of splits.
The size of an SLM baseline model depends on the number of partitioning hyper-planes which are determined by the training stage.
slmのベースラインモデルのサイズは、訓練段階によって決定される分割超平面の数に依存する。
0.76
For given hyper-parameter D0, each partitioning hyper-plane involves one weight matrix and a selected splitting threshold, with qi decorrelated partitioning learned
与えられた超パラメータd0に対して、各分割超平面は1つの重み行列と選択された分割しきい値を含む。
0.59
英語(論文から抽出)
日本語訳
スコア
MODEL SIZE COMPARISON OF FIVE MACHINE LEARNING MODELS MODELS AGAINST 9 DATASETS, WHERE THE SMALLEST MODEL SIZE FOR EACH
Then, the model size of the corresponding SLM can be calculated as
そして、対応するslmのモデルサイズを計算できる。
0.59
M(cid:88) SLM Parameter # =
M(第88回) SLMパラメータ# =
0.69
qi(D0 + 1),
qi(d0 + 1))
0.43
(37) i=1
(37) i=1 である。
0.37
where M is the number of partitioning hyperplanes.
ここで m は分割超平面の数です
0.68
Details on the model and computation of each method against each dataset are given in the appendix.
各データセットに対する各メソッドのモデルと計算の詳細は付録に記載されている。
0.85
It is worthwhile to comment on the tradeoff between the classification performance and the model size.
分類性能とモデルサイズの間のトレードオフについてコメントする価値がある。
0.73
For SVM, since its training involves learning the dual coefficients and slack variables for each training sample and memorization of support vectors, the model size is increasing linearly with the number of training samples and the number of support vectors.
For the datasets with saturated performance such as Iris, Banknote, and Ionosphere, SLM achievs better or comparable performance with less than half of the parameters of MLP.
With outperforming the DTs in all the datasets, the SLM model sizes are generally smaller than the DTs as well with benefiting from the subspace partitioning process.
Convergence Performance Comparison of DT Ensembles and SLM Ensembles.
DTアンサンブルとSLMアンサンブルの収束性能比較
0.52
We compare the convergence performance of the ensemble and the boosting methods of DT and SLM for Wine, B.C.W. and Pima three datas in Figs.
ワイン,b.c.w.,pimaの3つのデータについて,アンサンブルの収束性能とdtおよびslmの促進法を比較した。 訳抜け防止モード: 我々はアンサンブルの収束性能とDTの促進方法の比較を行った。 SLM for Wine, B.C.W. and Pima three datas in Figs
0.83
5(a)-(c).
5(a)-(c)である。
0.71
For RF and SLM Forest, which are ensembles of DT and SLM, respectively, we set their maximum tree depth and learning rate to the same.
DTとSLMのアンサンブルであるRFとSLMフォレストでは,最大木深度と学習速度を同じに設定した。
0.57
We show their accuracy curves as a function of the tree number in the left subfigure.
左サブフィギュアにおける木数関数としてそれらの精度曲線を示す。
0.74
We see that SLM Forest converges faster than RF.
SLMフォレストはRFよりも早く収束する。
0.59
For XGBoost and SLM Boost, which are boosting methods of DT and SLM, respectively, we show the logloss value as a function of the tree number in the right subfigure.
Again, we see that SLM Boost converges faster than XGBoost.
繰り返しますが、SLM BoostはXGBoostよりも早く収束します。
0.74
Fig. 5. Comparison of SLM and DT ensembles for three datasets
図5。 3つのデータセットに対するSLMとDTアンサンブルの比較
0.67
(a) Wine, (b) B.C.W., and
(a)ワイン。 (b)B.C.W.及び
0.68
(c) Pima. Each left subfigure compares the accuracy curves of SLM Forest and RF as a function of the tree number.
(c)ピマ。 各左サブフィギュアはSLMフォレストとRFの精度曲線を木数関数として比較する。
0.51
Each right subfigure compares the logloss curves of SLM Boost and XGBoost as a function of the tree number.
各右部分図は木数関数としてSLM BoostとXGBoostのログロス曲線を比較する。
0.68
V. SUBSPACE LEARNING REGRESSOR (SLR)
V.サブスペース学習レグレッシャ(SLR)
0.69
A. Method A different loss function can be adopted in the subspace partitioning process for a different task.
A.方法 異なるタスクのサブスペース分割プロセスで異なる損失関数を適用できる。
0.70
For example, to solve a regression problem, we can follow the same methodology as described in Sec.
例えば、回帰問題を解決するために、secで説明されているのと同じ方法に従うことができる。
0.59
II but adopt the mean-squrared-error (MSE) as the loss function.
II 平均赤外エラー(MSE)を損失関数として採用する。
0.67
The resulting method is called subspace learning regression, and the corresponding regressor is the subspace learning regressor (SLR).
この手法はサブスペース学習回帰と呼ばれ、対応する回帰器はサブスペース学習回帰器(SLR)である。
0.71
Mathematically, each training sample has a pair of input x and output y, where x is a D-dimensional feature vector and y is a scalar that denotes the the regression target.
数学的には、各トレーニングサンプルは入力 x と出力 y のペアを持ち、x はd-次元特徴ベクトルであり、y は回帰対象を表すスカラーである。
0.79
Then, we build an SLR tree that partitions the D-dimensional feature
そして、D次元特徴を分割するSLR木を構築する。
0.70
英語(論文から抽出)
日本語訳
スコア
COMPARISON OF REGRESSION PERFORMANCE OF EIGHT REGRESSORS ON SIX DATASETS.
第6 データに対する第8 次回帰器の回帰性能の比較
0.30
TABLE III 9 Make Friedman1 Make Friedman2 Make Friedman3
The mean of sample targets in a leaf node is set as the predicted regression value of these samples.
葉ノードにおけるサンプルターゲットの平均値をこれらのサンプルの予測回帰値として設定する。
0.84
The partition objective is to reduce the total MSE of sample targets as much as possible.
分割の目的は、サンプルターゲットの総MSEを可能な限り削減することである。
0.81
In the partitioning process, the total MSE of all leaf nodes decreases gradually and saturates at a certain level.
分割過程において、すべての葉ノードの総MSEは徐々に減少し、一定のレベルで飽和する。
0.76
The ensemble and boosting methods are applicable to SLR.
アンサンブルとブーチング法はSLRに適用できる。
0.53
The SLR Forest consists of multiple SLR trees through ensembles.
SLRフォレストは複数のSLRツリーで構成されている。
0.71
Its final prediction is the mean of predictions from SLR trees in the forest.
最後の予測は、森林のslr木からの予測の平均である。
0.70
To derive SLR Boost, we apply the GBDT process and train a series of additive SLR trees to achieve gradient boosting, leading to further performance improvement.
B. Performance Evaluation To evaluate the performance of SLR, we compare the root mean squared error (RMSE) performance of eight regressors on six datasets in Table III.
Also, SLR Forest and SLR Boosting outperform RF and XGBoost, respectively.
また、SLRフォレストとSLRブースティングはそれぞれRFとXGBoostを上回っている。
0.64
For Make Friedman1, Make Friedman3, california-housing, Boston, and diabetes, SLR Boost achieves the best performance.
Make Friedman1, Make Friedman3, Californiafornia-Hou sing, Boston, and diabetesにとって、SLR Boostは最高のパフォーマンスを実現している。 訳抜け防止モード: Make Friedman1, Make Friedman3, Californiafornia - House, Boston 糖尿病、SLR Boostは最高のパフォーマンスを達成する。
0.80
For Make Friedman2, SVR/RBF achieves the best performance benefiting from the RBF on its specific data distribution.
Make Friedman2では、SVR/RBFは特定のデータ配信においてRBFから最高のパフォーマンスを得る。
0.66
However, it is worthwhile to emphasize that, to achieve the optimal performance, SVR/RBF needs to overfit to the training data by finetuning the soft margin with a large regularization parameter (i.e., C = 1000).
One tree is typically a weak classifier, and multiple trees are built to achieve higher performance in practice such as bootstrap aggregation [6] and boosting methods [19].
Yet, they may fail due to poor training and test data splitting and training data overfit.
しかし、トレーニングやテストデータの分割やトレーニングデータの過剰が原因で失敗する可能性がある。
0.68
As compared to classic DT, one SLM tree (i.e., SLM Baseline) can exploit discriminant features obtained by probabilistic projections and achieve multiple splits at one node.
It is proved in [11] that the predictive performance of RF depends on the strength of individual trees and a measure of their dependence.
RFの予測性能は, 個々の木の強度とその依存性の尺度に依存することが[11]で証明された。
0.86
For
のために
0.51
英語(論文から抽出)
日本語訳
スコア
the latter, the lower the better.
後者の方が低いほど良い。
0.66
To achieve higher diversity, RF training takes only a fraction of training samples and features in building a tree, which trades the strength of each DT for the general ensemble performance.
Random split selection [21] selects a split at a node among the best splits at random.
ランダム分割選択[21]は、最適な分割のうち、ノードの分割をランダムに選択する。
0.81
In [22], a random subset of features is selected to grow each tree.
22]では、各木を成長させるために、特徴のランダムなサブセットが選択される。
0.67
Generally speaking, RF uses bagging and feature randomness to create uncorrelated trees in a forest, and their combined prediction is more accurate than that of an individual tree.
III-A. Besides effective diversity of SLM trees, the strength of each SLM tree is not affected in SLM Forest.
III-A。 SLM樹の有効多様性に加えて、各SLM木の強度はSLM林には影響しない。
0.53
With stronger individual learners and effective diversity, SLM Forest achieves better predictive performance and faster convergence in terms of the tree number.
Gradient boosting is another ensemble method of weak learners.
グラディエントブースティングは弱い学習者のアンサンブル手法である。
0.46
It builds a sequence of weak prediction models.
一連の弱い予測モデルを構築します。
0.71
Each new model attempts to compensate the prediction residual left in previous models.
それぞれの新しいモデルは、以前のモデルに残された予測残差を補償しようとする。
0.71
The gradient boosting decision tree (GBDT) methods includes [7], which performs the standard gradient boosting, and XGBoost [9], [10], which takes the Taylor series expansion of a general loss function and defines a gain so as to perform more effective node splittings than standard DTs.
As compared with standard GBDT methods, SLM Boost achieves faster convergence and better performance as a consequence of stronger performance of an SLM tree.
Its universal approximation capability is studied in [26], [27], [28], [29].
その普遍近似能力は [26], [27], [28], [29] で研究されている。
0.80
The design of a practical MLP solution can be categorized into two approaches.
実用的なMLPソリューションの設計は2つのアプローチに分類できる。
0.84
First, one can propose an architecture and fine tune parameters at each layer through back propagation.
まず、アーキテクチャを提案し、バックプロパゲーションを通じて各レイヤのパラメータを微調整する。
0.62
For the MLP architecture, it is often to evaluate different networks through trials and errors.
mlpアーキテクチャでは、試行錯誤によって異なるネットワークを評価することがしばしばある。
0.63
Design strategies include tabu search [30] and simulated annealing [31].
デザイン戦略にはタブサーチ[30]とシミュレートされたアニール[31]が含まれる。
0.71
There are quite a few MLP variants.
MLPには様々な種類がある。
0.79
In convolutional neural networks (CNNs) [32], [33], [34], [35], convolutional layers share neurons’ weights and biases across different spatial locations while fully-connected layers are the same as traditional MLPs.
Nonlinear activation in a neuron serves as a partition of the output feature space and only one half subspace is selected to resolve the sign confusion problem caused by the cascade of convolution operations [48], [4].
ELM [5] adopts random weights for the training of feedforward neural networks.
ELM[5]はフィードフォワードニューラルネットワークのトレーニングにランダムウェイトを採用する。
0.72
Theory of random projection learning models and their properties (e g , interpolation and universal approximation) have been investigated in [49], [50], [51], [52].
To build MLP with ELM, one can add new layers with randomly generated weights.
ELMでMLPを構築するには、ランダムに生成された重みを持つ新しいレイヤを追加すればよい。
0.59
However, the long training time and the large model size due to a large search space imposes their constraints in practical applications.
しかし、大きな探索空間による長い訓練時間と大きなモデルサイズは、実際の応用に制約を課している。
0.74
SLM Baseline does take the efficiency into account.
SLM Baselineは効率を考慮に入れている。
0.85
It builds a general decision tree through probabilistic projections, which reduces the search space by leveraging most discriminant features with several hyper-parameters.
At each subspace learning step, SLM utilizes hyperplane partitioning to evaluate each feature dimension, and probabilistic projection to learn parameters for perceptrons for feature learning, the most discriminant subspace is learned to partition the data into child SLM nodes, and the subspace learning process is conducted iteratively, final predictions are made with pure SLM child nodes.
[7] J. H. Friedman, “Greedy function approximation: a gradient boosting
7]j.h.フリードマン「グリーディ関数近似:勾配ブースティング」
0.62
machine,” Annals of statistics, pp. 1189–1232, 2001.
anals of statistics, pp. 1189-1232, 2001を参照。
0.61
[8] Y. Yang, W. Wang, H. Fu, and C.
[8]y.yang,w.ww,h.fu,c。
0.54
-C. J. Kuo, “On supervised feature selection from high dimensional feature spaces,” arXiv preprint arXiv:2203.11924, 2022.
-C。 J. Kuo, “On supervised feature selection from High dimensional feature space” arXiv preprint arXiv:2203.11924, 2022。 訳抜け防止モード: -C。 J. Kuo, “高次元特徴空間からの教師付き特徴選択について” arXiv preprint arXiv:2203.11924 , 2022
0.60
[9] T. Chen, T. He, M. Benesty, V. Khotilovich, Y. Tang, H. Cho, K. Chen et al , “Xgboost: extreme gradient boosting,” R package version 0.4-2, vol.
[9]T. Chen, T. He, M. Benesty, V. Khotilovich, Y. Tang, H. Cho, K. Chen et al , “Xgboost: extreme gradient boosting, R package version 0.4-2, vol. 訳抜け防止モード: [9 ]T. Chen, T. He, M. Benesty, V. Khotilovich, Y. Tang, H. Cho, K. Chenら Xgboost : extreme gradient boosting, ” R package version 0.4 - 2,vol である。
0.89
1, no. 4, pp. 1–4, 2015.
第1巻、第4巻、p.1-4、2015年。
0.41
[10] T. Chen and C. Guestrin, “Xgboost: A scalable tree boosting system,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, pp. 785–794.
10] t. chen and c. guestrin, “xgboost: a scalable tree boosting system” in the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016 pp. 785-794. (英語) 訳抜け防止モード: [10 ]T. Chen, C. Guestrin, “Xgboost : a scalable tree boosting system” 第22回シグクッド国際知識発見会議 およびデータマイニング , 2016 , pp . 785–794 。
0.72
[11] Y. Amit and D. Geman, “Shape quantization and recognition with randomized trees,” Neural computation, vol.
11] y. amit と d. geman, “shape quantization and recognition with randomized trees”, neural computation, vol.1 (英語) 訳抜け防止モード: 11 ] y. amit と d. geman, “shape quantization and recognition with randomized trees” ニューラルネットワークの計算。
0.68
9, no. 7, pp. 1545–1588, 1997.
9,7,p.1545-1588,1997 。
0.60
[12] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg et al , “Scikit-learn: Machine learning in python,” the Journal of machine Learning research, vol.
F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg et al , “Scikit-learn: Machine Learning in python”, Journal of Machine Learning Research, Vol.
0.47
12, pp. 2825–2830, 2011.
12, pp. 2825–2830, 2011。
0.88
[13] R. A. Fisher, “The use of multiple measurements in taxonomic prob-
13]r.a.フィッシャー著『分類学における多重測定の利用-』
0.70
lems,” Annals of eugenics, vol.
anals of eugenics, vol. “lems” (英語)
0.54
7, no. 2, pp. 179–188, 1936.
7, 2, pp. 179–188, 1936。
0.80
[14] A. Asuncion and D. Newman, “Uci machine learning repository,” 2007.
[14] a. asuncion, d. newman, “uci machine learning repository” 2007年。
0.77
[15] J. W. Smith, J. E. Everhart, W. Dickson, W. C. Knowler, and R. S. Johannes, “Using the adap learning algorithm to forecast the onset of diabetes mellitus,” in Proceedings of the annual symposium on computer application in medical care.
J. W. Smith, J. E. Everhart, W. Dickson, W. C. Knowler, R. S. Johannesは、医療におけるコンピュータ応用に関する毎年恒例のシンポジウムで、“糖尿病の発症を予測するためのアダプラーニングアルゴリズムを使用している”と述べている。
0.76
American Medical Informatics Association, 1988, p. 261.
アメリカ医学情報学会、1988年、p.261。
0.79
[16] J. P. G¨opfert, H. Wersing, and B. Hammer, “Interpretable locally adaptive nearest neighbors,” Neurocomputing, vol.
[19] T. Chen and C. Guestrin, “Xgboost: A scalable tree boosting system,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, pp. 785–794.
19] t. chen and c. guestrin, “xgboost: a scalable tree boosting system” in the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016 pp. 785-794. (英語) 訳抜け防止モード: [19 ]T. Chen, C. Guestrin, “Xgboost : a scalable tree boosting system” 第22回シグクッド国際知識発見会議 およびデータマイニング , 2016 , pp . 785–794 。
0.71
[20] L. Breiman, “Bagging predictors,” Machine learning, vol.
20] l. breiman, “bagging predictors”, machine learning, vol。
0.69
24, no. 2, pp.
24, No. 2, pp.
0.41
123–140, 1996.
123–140, 1996.
0.42
[21] T. G. Dietterich, “An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization,” Machine learning, vol.
21]t.g. dietterich, “意思決定木(bagging, boosting, and randomization)のアンサンブルを構築するための3つの方法の実験的な比較”、と機械学習は述べている。
0.67
40, no. 2, pp. 139–157, 2000.
40, no. 2, pp. 139–157, 2000。
0.92
[22] T. K. Ho, “The random subspace method for constructing decision forests,” IEEE transactions on pattern analysis and machine intelligence, vol.
22] t.k. ho, “the random subspace method for construction decision forests”, ieee transactions on pattern analysis and machine intelligence, vol. ] (英語) 訳抜け防止モード: 22 ] t.k. ho, “決定的森林を構築するためのランダムな部分空間法” ieee transactions on pattern analysis and machine intelligence, vol。
0.81
20, no. 8, pp. 832–844, 1998.
20. 8, pp. 832-844, 1998。
0.76
[23] A. Ahad, A. Fayyaz, and T. Mehmood, “Speech recognition using multilayer perceptron,” in IEEE Students Conference, ISCON’02.
23] a. ahad, a. fayyaz, t. mehmood, “speech recognition using multilayer perceptron” in ieee students conference, iscon’02. (英語) 訳抜け防止モード: A. Ahad, A. Fayyaz, T. Mehmood. IEEE Students Conference,ISCON’02における「多層パーセプトロンを用いた音声認識」について検討した。
0.79
Proceedings. , vol. 1.
手続きだ ヴォル。 1.
0.40
IEEE, 2002, pp. 103–109.
IEEE, 2002, pp. 103-109。
0.86
[24] A. V. Devadoss and T. A. A. Ligori, “Forecasting of stock prices using multi layer perceptron,” International journal of computing algorithm, vol.
international journal of computing algorithm, vol. “24] a. v. devadossとt. a. a. ligoriは、“多層パーセプトロンによる株価の予測”、と言っている。
0.64
2, no. 1, pp. 440–449, 2013.
2, No. 1, pp. 440-449, 2013
0.43
[25] K. Sivakumar and U. B. Desai, “Image restoration using a multilayer perceptron with a multilevel sigmoidal function,” IEEE transactions on signal processing, vol.
[26] G. Cybenko, “Approximation by superpositions of a sigmoidal function,” Mathematics of control, signals and systems, vol.
[26] g. cybenko, "sgmoidal functionの重ね合わせによる近似", 制御, 信号, システム数学, vol。
0.68
2, no. 4, pp. 303–314, 1989.
2, No. 4, pp. 303–314, 1989。
0.47
[27] K. Hornik, M. Stinchcombe, and H. White, “Multilayer feedforward networks are universal approximators,” Neural networks, vol.
[27] k. hornik, m. stinchcombe, h. white, “multilayer feedforward networks are universal approximator”(多層フィードフォワードネットワークは普遍的近似である)。
0.76
2, no. 5, pp. 359–366, 1989.
2, 5, pp. 359-366, 1989。
0.77
[28] M. Stinchombe, “Universal approximation using feed-forward networks with nonsigmoid hidden layer activation functions,” Proc.
[28] m. stinchombe, “非sigmoid hidden layer activation functionのフィードフォワードネットワークを用いた普遍近似” proc。
0.83
IJCNN, Washington, DC, 1989, pp. 161–166, 1989.
IJCNN, Washington, DC, 1989, pp. 161–166, 1989.
0.48
[29] M. Leshno, V. Y. Lin, A. Pinkus, and S. Schocken, “Multilayer feedforward networks with a nonpolynomial activation function can approximate any function,” Neural networks, vol.
M. Leshno, V. Y. Lin, A. Pinkus, S. Schocken, “非多項式活性化関数を持つ多層フィードフォワードネットワークは、任意の関数を近似することができる”。
0.81
6, no. 6, pp. 861–867, 1993.
6,6, pp. 861-867, 1993。
0.69
[30] F. Glover, “Future paths for integer programming and links to artificial intelligence,” Computers & operations research, vol.
とComputers & Operations Research, vol.[30] F. Glover, “整数プログラミングと人工知能へのリンクのための将来の道”.
0.89
13, no. 5, pp. 533– 549, 1986.
13 no. 5, pp. 533–549, 1986年。
0.82
[31] S. Kirkpatrick, C. D. Gelatt Jr, and M. P. Vecchi, “Optimization by simulated annealing,” science, vol.
S. Kirkpatrick, C. D. Gelatt Jr, and M. P. Vecchi, “Optimization bysimulated annealing”, Science, vol。 訳抜け防止モード: 【31】s・カークパトリック、c・d・ゲラット・ジュニア そしてm.p. vecchi, “optimize by simulated annealing, ” science, vol. 。
0.65
220, no. 4598, pp. 671–680, 1983.
220, No. 4598, pp. 671-680, 1983。
0.95
[32] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol.
Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, “Gradient-based learning applied to document recognition”, Proceedings of the IEEE, vol。 訳抜け防止モード: [32 ]Y.LeCun,L.Bottou,Y.B engio, そしてP. Haffner氏は,“ドキュメント認識に適用されたグラディエントベースの学習”だ。 IEEE , vol の成果。
0.72
86, no. 11, pp. 2278–2324, 1998.
86, No. 11, pp. 2278–2324, 1998。
0.45
12 [33] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, vol.
12 [33] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel, “Backpropagation apply to handwriting zip code Recognition”, Neural Computing, vol。 訳抜け防止モード: 12 [33 ]Y. LeCun, B. Boser, J. S. Denker D・ヘンダーソン、R・E・ハワード、W・ハバード、L・D・ジャッケル。 バックプロパゲーションは手書きのzipコード認識に適用される。
0.55
1, no. 4, pp. 541–551, 1989.
1, no. 4, pp. 541-551, 1989。
0.46
[34] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems, vol.
[34] a. krizhevsky, i. sutskever, g. hinton, “imagenet classification with deep convolutional neural networks”(深層畳み込みニューラルネットワークによるイメージネット分類)は、ニューラル情報処理システムにおける進歩である。 訳抜け防止モード: [34] a. krizhevsky, i. sutskever, g. e. hinton, 深層畳み込みニューラルネットワークによるイメージネット分類” ニューラル情報処理システムにおける進歩,vol。
0.82
25, 2012. [35] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” nature, vol.
25, 2012. Y. LeCun, Y. Bengio, G. Hinton, “Deep Learning, nature, vol。
0.38
521, no. 7553, pp. 436–444, 2015.
521, 第7553号、p.436-444、2015年。
0.52
[36] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, 訳抜け防止モード: [36 ]A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit , L. Jones , A. N. Gomez 。
0.48
Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol.
kaiser, and i. polosukhin, “attention is all you need” 神経情報処理システムにおける進歩, vol。
0.74
30, 2017. [37] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al , “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.
30, 2017. A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al , “画像は16×16ワードの価値があります。 訳抜け防止モード: 30, 2017. [37 ] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani M. Minderer, G. Heigold, S. Gelly, al. “画像は16×16ワードの価値があります。 arXiv preprint arXiv:2010.11929 , 2020
0.65
[38] R. Parekh, J. Yang, and V. Honavar, “Constructive neural network learning algorithms for multi-category real-valued pattern classification,” Dept.
[38] r. parekh, j. yang, v. honavar, “多カテゴリー実値パターン分類のための構築型ニューラルネットワーク学習アルゴリズム”とdeptは書いている。
0.68
Comput. Sci.
Comput Sci
0.25
, Iowa State Univ., Tech.
アイオワ州立大学出身。
0.49
Rep. ISU-CS-TR97-06, 1997.
ISU-CS-TR97-06, 1997
0.25
[39] M. M´ezard and J.
[39]M・M・エザードとJ。
0.67
-P. Nadal, “Learning in feedforward layered networks: The tiling algorithm,” Journal of Physics A: Mathematical and General, vol.
-P。 Journal of Physics A: Mathematical and General, vol. “フィードフォワード層ネットワークの学習: タイリングアルゴリズム” とNadalは言う。 訳抜け防止モード: -P。 Nadal, “フィードフォワード層ネットワークにおける学習” The tiling algorithm, ”Journal of Physics A : Mathematical and General,vol。
0.63
22, no. 12, p. 2191, 1989.
22 no. 12 p. 2191 1989年。
0.70
[40] M. Frean, “The upstart algorithm: A method for constructing and training feedforward neural networks,” Neural computation, vol.
40] m. frean, “the upstart algorithm: a method to construction and training feedforward neural networks” neural computation, vol. ニューラル計算。
0.41
2, no. 2, pp. 198–209, 1990.
2, No. 2, pp. 198–209, 1990。
0.46
[41] R. Parekh, J. Yang, and V. Honavar, “Constructive neural-network learning algorithms for pattern classification,” IEEE Transactions on neural networks, vol.
ieee transactions on neural networks, vol. “constructive neural-network learning algorithms for pattern classification”[41] r. parekh, j. yang, v. honavar, “constructive neural-network learning algorithms for pattern classification”(パターン分類のための構築的ニューラルネットワーク学習アルゴリズム)。 訳抜け防止モード: [41 ]R. Parekh, J. Yang, V. Honavar 構成的ニューラルネットワーク - パターン分類のためのネットワーク学習アルゴリズム、ニューラルネットワーク上のIEEEトランザクション、vol。
0.77
11, no. 2, pp. 436–451, 2000.
11, No. 2, pp. 436–451, 2000。
0.47
[42] T. -Y.
[42]T。 -y。
0.36
Kwok and D. -Y.
kwokとd。 -y。
0.53
Yeung, “Objective functions for training new hidden units in constructive neural networks,” IEEE Transactions on neural networks, vol.
yeung, “objective functions for training new hidden units in constructionive neural networks” ieee transactions on neural networks, vol. ニューラルネットワークのトランザクション。 訳抜け防止モード: 建設的ニューラルネットワークで新しい隠れたユニットを訓練するための目的関数” IEEE Transactions on Neural Network, vol。
0.73
8, no. 5, pp. 1131–1148, 1997.
8, 5, pp. 1131-1148, 1997。
0.73
[43] S. I. Gallant et al , “Perceptron-based learning algorithms,” IEEE Trans-
[43]S.I. Gallant et al , “Perceptron-based learning algorithm, IEEE Trans-
0.47
actions on neural networks, vol.
ニューラルネットワークのアクション、vol.
0.65
1, no. 2, pp. 179–191, 1990.
1, 2, pp. 179–191, 1990。
0.77
[44] F. F. Mascioli and G. Martinelli, “A constructive algorithm for binary neural networks: The oil-spot algorithm,” IEEE Transactions on Neural Networks, vol.
ieee transactions on neural networks, vol. “a constructive algorithm for binary neural networks: the oil-spot algorithm”[44] f. f. mascioli氏とg. martinelli氏は、次のように述べている。
0.70
6, no. 3, pp. 794–797, 1995.
6, No. 3, pp. 794-797, 1995。
0.91
[45] R. Parekh, J. Yang, and V. Honavar, “Constructive neural-network learning algorithms for pattern classification,” IEEE Transactions on neural networks, vol.
ieee transactions on neural networks, vol. “constructive neural-network learning algorithms for pattern classification”[45] r. parekh, j. yang, v. honavar, “constructive neural-network learning algorithms for pattern classification”(パターン分類のための構築的ニューラルネットワーク学習アルゴリズム)。 訳抜け防止モード: [45 ]R. Parekh, J. Yang, V. Honavar 構成的ニューラルネットワーク - パターン分類のためのネットワーク学習アルゴリズム、ニューラルネットワーク上のIEEEトランザクション、vol。
0.77
11, no. 2, pp. 436–451, 2000.
11, No. 2, pp. 436–451, 2000。
0.47
[46] J. Yang, R. Parekh, and V. Honavar, “Distal: An inter-pattern distancebased constructive learning algorithm,” Intelligent Data Analysis, vol.
J. Yang, R. Parekh, V. Honavar, “Distal: an inter-pattern distance based constructive learning algorithm”, Intelligent Data Analysis, vol。 訳抜け防止モード: [46 ]J. Yang, R. Parekh, V. Honavar パターン間距離に基づく建設的学習アルゴリズム」 Intelligent Data Analysis, vol。
0.71
3, no. 1, pp. 55–73, 1999.
3巻1、p.55-73、1999。
0.48
[47] M. Marchand, “Learning by minimizing resources in neural networks,”
M. Marchand, “Learning by Minimize resources in Neural Network”[47]M. Marchand
0.40
Complex Systems, vol. 3, pp. 229–241, 1989.
複雑なシステムだ pp. 229-241, 1989。
0.58
[48] C. -C.
[48]C。 -C。
0.39
J. Kuo, “Understanding convolutional neural networks with a mathematical model,” Journal of Visual Communication and Image Representation, vol.
とjournal of visual communication and image representation, vol.は書いている。 訳抜け防止モード: j. kuo氏。 journal of visual communication and image representation, vol. 数学モデルによる畳み込みニューラルネットワークの理解
0.67
41, pp. 406–413, 2016.
41, pp. 406-413, 2016。
0.39
[49] G. -B.
49] G。 -B。
0.36
Huang, Q. -Y. Zhu, and C.
ハン、q。 -y。 ズーとcだ
0.39
-K. Siew, “Extreme learning machine: theory and applications,” Neurocomputing, vol.
-K。 Sew, “Extreme Learning Machine: Theory and Applications”, Neurocomputing, vol.
0.40
70, no. 1-3, pp. 489–501, 2006.
70, No. 1-3, pp. 489–501, 2006。
0.43
[50] G. -B.
[50] G。 -B。
0.40
Huang, L. Chen, C. K. Siew et al , “Universal approximation using incremental constructive feedforward networks with random hidden nodes,” IEEE Trans.
huang, l. chen, c. k. siewらによると、“ランダムな隠れノードを持つインクリメンタルな構成的フィードフォワードネットワークによる普遍的近似”だ。 訳抜け防止モード: huang, l. chen, c. k. siew et al, “ランダムな隠れノードを持つインクリメンタル構成型フィードフォワードネットワークを用いた普遍近似”。 ieee trans所属。
0.60
Neural Networks, vol.
ニューラルネットワーク、vol。
0.63
17, no. 4, pp. 879–892, 2006.
17, no. 4, pp. 879-892, 2006 頁。
0.81
[51] G. -B.
[51]g。 -B。
0.38
Huang and L. Chen, “Convex incremental extreme learning
huangとl. chenが語る“漸進的なエクストリーム学習”
0.55
machine,” Neurocomputing, vol.
とneurocomputing, vol。
0.38
70, no. 16-18, pp. 3056–3062, 2007.
70, no. 16-18, pp. 3056-3062, 2007 頁。
0.71
[52] ——, “Enhanced random search based incremental extreme learning
ランダム検索に基づくインクリメンタル・エクストリーム学習の強化”[52] —
0.77
machine,” Neurocomputing, vol.
とneurocomputing, vol。
0.38
71, no. 16-18, pp. 3460–3468, 2008.
71, no. 16-18, pp. 3460-3468, 2008 頁。
0.73
[53] Y. Chen, Z. Xu, S. Cai, Y. Lang, and C.
[53]Chen,Z.Xu,S.Cai,Y.La ng,C
0.65
-C. J. Kuo, “A saak transform approach to efficient, scalable and robust handwritten digits recognition,” in 2018 Picture Coding Symposium (PCS).
-C。 J. Kuo氏は、2018 Picture Coding Symposium (PCS)で、“効率的でスケーラブルで堅牢な手書き桁認識のためのサーク変換アプローチ”と題している。
0.54
IEEE, 2018, pp. 174–178.
IEEE, 2018, pp. 174-178。
0.82
[54] Y. Chen and C.
[54]y.チェンとc.
0.78
-C. J. Kuo, “Pixelhop: A successive subspace learning (ssl) method for object recognition,” Journal of Visual Communication and Image Representation, vol.
-C。 J. Kuo, "Pixelhop: オブジェクト認識のための連続的なサブスペース学習(ssl)", Journal of Visual Communication and Image Representation, vol。
0.61
70, p. 102749, 2020.
70, p. 102749, 2020。
0.92
[55] Y. Chen, M. Rouhsedaghat, S. You, R. Rao, and C.
[55]Chen,M. Rouhsedaghat,S. You,R. Rao,C。
0.37
-C. J. Kuo, “Pixelhop++: A small successive-subspace- learning-based (ssl-based) model for image classification,” in 2020 IEEE International Conference on Image Processing (ICIP).
-C。 J. Kuo氏は、2020年のIEEE International Conference on Image Processing (ICIP)で、“Pixelhop++: 画像分類のための小さなサブスペースベース(sslベース)モデル”と題している。
0.51
IEEE, 2020, pp. 3294–3298.
IEEE, 2020, pp. 3294–3298。
0.93
[56] C. -C.
[56]C。 -C。
0.39
J. Kuo and Y. Chen, “On data-driven saak transform,” Journal of Visual Communication and Image Representation, vol.
J. Kuo, Y. Chen, “On data-driven saak transform”, Journal of Visual Communication and Image Representation, vol. 訳抜け防止モード: j. kuo氏とy. chen氏が語る“データ駆動のsaak変換” journal of visual communication and image representation, vol. の略。
0.64
50, pp. 237–246, 2018.
50, pp. 237-246, 2018年。
0.72
[57] C. -C. J. Kuo, M. Zhang, S. Li, J. Duan, and Y. Chen, “Interpretable convolutional neural networks via feedforward design,” Journal of Visual Communication and Image Representation, 2019.
57]C。 -C。 J. Kuo, M. Zhang, S. Li, J. Duan, Y. Chen, “フィードフォワードデザインによる解釈可能な畳み込みニューラルネットワーク”, Journal of Visual Communication and Image Representation, 2019” だ。