論文の概要: Sub-Setting Algorithm for Training Data Selection in Pattern Recognition
- arxiv url: http://arxiv.org/abs/2110.06527v1
- Date: Wed, 13 Oct 2021 06:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 00:13:51.939158
- Title: Sub-Setting Algorithm for Training Data Selection in Pattern Recognition
- Title(参考訳): パターン認識におけるデータ選択訓練のためのサブセッティングアルゴリズム
- Authors: AGaurav Arwade and Sigurdur Olafsson
- Abstract要約: 本稿では,単純な構造を持つ複数のサブセットを識別するトレーニングデータ選択アルゴリズムを提案する。
サブセットアルゴリズムは、複数のサブセットを単純な局所パターンで識別し、インスタンスの近傍で類似したインスタンスを識別する。
我々のボトムアップサブセットアルゴリズムは、データセット全体から学んだトップダウン決定木よりも平均15%良い結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern pattern recognition tasks use complex algorithms that take advantage
of large datasets to make more accurate predictions than traditional algorithms
such as decision trees or k-nearest-neighbor better suited to describe simple
structures. While increased accuracy is often crucial, less complexity also has
value. This paper proposes a training data selection algorithm that identifies
multiple subsets with simple structures. A learning algorithm trained on such a
subset can classify an instance belonging to the subset with better accuracy
than the traditional learning algorithms. In other words, while existing
pattern recognition algorithms attempt to learn a global mapping function to
represent the entire dataset, we argue that an ensemble of simple local
patterns may better describe the data. Hence the sub-setting algorithm
identifies multiple subsets with simple local patterns by identifying similar
instances in the neighborhood of an instance. This motivation has similarities
to that of gradient boosted trees but focuses on the explainability of the
model that is missing for boosted trees. The proposed algorithm thus balances
accuracy and explainable machine learning by identifying a limited number of
subsets with simple structures. We applied the proposed algorithm to the
international stroke dataset to predict the probability of survival. Our
bottom-up sub-setting algorithm performed on an average 15% better than the
top-down decision tree learned on the entire dataset. The different decision
trees learned on the identified subsets use some of the previously unused
features by the whole dataset decision tree, and each subset represents a
distinct population of data.
- Abstract(参考訳): 現代のパターン認識タスクでは、大規模なデータセットを活用する複雑なアルゴリズムを使用して、決定木やk-nearest-neighborといった従来のアルゴリズムよりも正確な予測を行う。
精度の向上はしばしば重要であるが、複雑さの低減にも価値がある。
本稿では,複数のサブセットを単純な構造で識別するトレーニングデータ選択アルゴリズムを提案する。
このようなサブセットで訓練された学習アルゴリズムは、従来の学習アルゴリズムよりも精度良くサブセットに属するインスタンスを分類することができる。
言い換えれば、既存のパターン認識アルゴリズムは、データセット全体を表現するためのグローバルマッピング関数を学習しようとするが、単純な局所パターンの集合がデータをよりよく記述するかもしれない。
したがって、サブセットアルゴリズムは、インスタンスの近傍で類似したインスタンスを識別することで、単純な局所パターンを持つ複数のサブセットを識別する。
この動機は勾配強化木に似ているが、傾斜強化木に欠けているモデルの説明可能性に焦点を当てている。
提案アルゴリズムは,少数のサブセットを単純な構造で識別することで,精度と説明可能な機械学習のバランスをとる。
提案アルゴリズムを国際脳卒中データセットに適用し,生存確率の予測を行った。
我々のボトムアップサブセットアルゴリズムは、データセット全体から学んだトップダウン決定木よりも平均15%良い結果を得た。
識別されたサブセットで学習された異なる決定ツリーは、データセット決定ツリー全体によってこれまで使われていなかったいくつかの特徴を使用し、各サブセットは異なるデータの集団を表す。
関連論文リスト
- OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable? [18.801143204410913]
OOD一般化のためのアルゴリズム選択のタスクを形式化し、学習によってアプローチできるかどうかを検討する。
我々は,OOD-Chameleonと呼ばれる手法を提案し,そのタスクを候補アルゴリズムに対する教師付き分類として扱う。
データセットの特徴からアルゴリズムの相対的な性能を予測するためにモデルを訓練する。
論文 参考訳(メタデータ) (2024-10-03T17:52:42Z) - Classification Tree-based Active Learning: A Wrapper Approach [4.706932040794696]
本稿では,木構造にサンプリングプロセスを整理し,分類のためのラッパー能動的学習法を提案する。
ラベル付き標本の初期集合上に構築された分類木は、空間を低エントロピー領域に分解すると考えられる。
この適応は、既存のアクティブラーニング手法よりも大幅に向上することが証明されている。
論文 参考訳(メタデータ) (2024-04-15T17:27:00Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Discrete Tree Flows via Tree-Structured Permutations [5.929956715430168]
離散フローベースモデルは、離散関数の勾配が未定義あるいはゼロであるため、従来のディープラーニング手法では直接最適化できない。
提案手法は,決定木に基づく離散フローを開発することにより,計算負担を低減し,擬似勾配の必要性を解消することを目的としている。
論文 参考訳(メタデータ) (2022-07-04T23:11:04Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Data Structures & Algorithms for Exact Inference in Hierarchical
Clustering [41.24805506595378]
本稿では,新しいトレリスデータ構造に基づく階層クラスタリングにおける表現型推論のための動的プログラミングアルゴリズムを提案する。
我々のアルゴリズムは時間と空間に比例してN$要素のパワーセットをスケールし、これは(2N-3)! 可能な階層のそれぞれを明示的に考慮するよりも指数関数的に効率的である。
論文 参考訳(メタデータ) (2020-02-26T17:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。