論文の概要: Modeling Text with Decision Forests using Categorical-Set Splits
- arxiv url: http://arxiv.org/abs/2009.09991v3
- Date: Fri, 5 Feb 2021 11:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:24:55.744684
- Title: Modeling Text with Decision Forests using Categorical-Set Splits
- Title(参考訳): カテゴリーセット分割を用いた森林決定文のモデル化
- Authors: Mathieu Guillame-Bert, Sebastian Bruch, Petr Mitrichev, Petr Mikheev,
Jan Pfeifer
- Abstract要約: 軸方向決定林では、入力例をルートする「決定」は特徴空間の1次元における条件の評価の結果である。
分類的特徴に特有な条件を定義し,それを学習するためのアルゴリズムを提案する。
我々のアルゴリズムは訓練中は効率的であり、結果の条件はQuickScorer推論アルゴリズムの拡張により高速に評価できる。
- 参考スコア(独自算出の注目度): 2.434796198711328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision forest algorithms typically model data by learning a binary tree
structure recursively where every node splits the feature space into two
sub-regions, sending examples into the left or right branch as a result. In
axis-aligned decision forests, the "decision" to route an input example is the
result of the evaluation of a condition on a single dimension in the feature
space. Such conditions are learned using efficient, often greedy algorithms
that optimize a local loss function. For example, a node's condition may be a
threshold function applied to a numerical feature, and its parameter may be
learned by sweeping over the set of values available at that node and choosing
a threshold that maximizes some measure of purity. Crucially, whether an
algorithm exists to learn and evaluate conditions for a feature type determines
whether a decision forest algorithm can model that feature type at all. For
example, decision forests today cannot consume textual features directly --
such features must be transformed to summary statistics instead. In this work,
we set out to bridge that gap. We define a condition that is specific to
categorical-set features -- defined as an unordered set of categorical
variables -- and present an algorithm to learn it, thereby equipping decision
forests with the ability to directly model text, albeit without preserving
sequential order. Our algorithm is efficient during training and the resulting
conditions are fast to evaluate with our extension of the QuickScorer inference
algorithm. Experiments on benchmark text classification datasets demonstrate
the utility and effectiveness of our proposal.
- Abstract(参考訳): 決定フォレストアルゴリズムは通常、各ノードが特徴空間を2つのサブリージョンに分割し、その結果、サンプルを左または右ブランチに送信するバイナリツリー構造を再帰的に学習することでデータをモデル化する。
軸方向決定林では、入力例をルートする「決定」は特徴空間の1次元における条件の評価の結果である。
このような条件は、局所的損失関数を最適化する効率的でしばしば欲張りなアルゴリズムを用いて学習される。
例えば、ノードの状態は数値的特徴に適用されたしきい値関数であり、そのパラメータはそのノードで利用可能な値の集合を網羅し、純度を最大化するしきい値を選択することによって学習することができる。
重要なことは、特徴型の条件を学習し評価するアルゴリズムが存在するかどうかが、決定森林アルゴリズムが特徴型をモデル化できるかどうかを決定する。
例えば、今日の意思決定の森では、テキストの特徴を直接消費することはできない。
この作業では、そのギャップを埋めることにしました。
分類的特徴に特有な条件 – 非順序の分類変数の集合として定義されている – を定義し,それを学習するアルゴリズムを示し,逐次順序を保たずにテキストを直接モデル化する機能を備えた決定林を提供する。
我々のアルゴリズムは訓練中は効率的であり、結果の条件はQuickScorer推論アルゴリズムの拡張により高速に評価できる。
テキスト分類データセットのベンチマーク実験により,提案手法の有効性と有効性を示す。
関連論文リスト
- Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case [0.0]
本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
精度と説明可能性のトレードオフを調べたところ,3種類の木に基づく分類アルゴリズムが評価された。
論文 参考訳(メタデータ) (2024-07-26T06:50:17Z) - Simplification of Forest Classifiers and Regressors [1.8275108630751844]
本研究では,森林分類器や回帰器の枝分かれ条件をできるだけ多く共有する問題について検討する。
本稿では,この問題を効率的に解くアルゴリズムを用いて,元問題に対するアルゴリズムを提案する。
本手法の有効性は,21個のデータセットを用いた総合的な実験によって実証された。
論文 参考訳(メタデータ) (2022-12-14T08:49:02Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Explaining random forest prediction through diverse rulesets [0.0]
Local Tree eXtractor (LTreeX)は、与えられたテストインスタンスのフォレスト予測を、いくつかの異なるルールで説明することができる。
提案手法は予測性能の点で他の説明可能な手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:54:57Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Nonparametric Feature Selection by Random Forests and Deep Neural
Networks [4.232614032390374]
ランダムな森林とディープニューラルネットワークを組み込んだ非パラメトリック特徴選択アルゴリズムを提案する。
このアルゴリズムは標準的なランダムフォレストを用いて提案されているが、他の機械学習アルゴリズムに広く適用することができる。
論文 参考訳(メタデータ) (2022-01-18T08:45:33Z) - Making CNNs Interpretable by Building Dynamic Sequential Decision
Forests with Top-down Hierarchy Learning [62.82046926149371]
本稿では,CNN(Convlutional Neural Networks)を解釈可能なモデル転送方式を提案する。
我々は、CNNの上に微分可能な意思決定林を構築することで、これを実現する。
DDSDF(Dep Dynamic Sequential Decision Forest)と命名する。
論文 参考訳(メタデータ) (2021-06-05T07:41:18Z) - E2E-FS: An End-to-End Feature Selection Method for Neural Networks [0.3222802562733786]
EndtoEnd Feature Selection (E2FS) と呼ばれる新しい選択アルゴリズムを提案する。
アルゴリズムは,ラッソ法と同様,勾配降下法を用いて解く。
厳しい制約はあるものの、実験結果は、このアルゴリズムがどんな学習モデルでも利用できることを示している。
論文 参考訳(メタデータ) (2020-12-14T16:19:25Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。