論文の概要: A new algorithm for Subgroup Set Discovery based on Information Gain
- arxiv url: http://arxiv.org/abs/2307.15089v2
- Date: Mon, 31 Jul 2023 08:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 19:44:32.407340
- Title: A new algorithm for Subgroup Set Discovery based on Information Gain
- Title(参考訳): 情報ゲインに基づくサブグループ集合探索のための新しいアルゴリズム
- Authors: Daniel G\'omez-Bravo, Aaron Garc\'ia, Guillermo Vigueras, Bel\'en
R\'ios, Alejandro Rodr\'iguez-Gonz\'alez
- Abstract要約: Information Gained Subgroup Discovery (IGSD)は、パターン発見のための新しいSDアルゴリズムである。
IGSDと最先端の2つのSDアルゴリズム(FSSDとSSD++)を比較した。
IGSDはFSSDやSSD++よりもOR値が優れており、パターンとターゲットへの依存度が高い。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pattern discovery is a machine learning technique that aims to find sets of
items, subsequences, or substructures that are present in a dataset with a
higher frequency value than a manually set threshold. This process helps to
identify recurring patterns or relationships within the data, allowing for
valuable insights and knowledge extraction. In this work, we propose
Information Gained Subgroup Discovery (IGSD), a new SD algorithm for pattern
discovery that combines Information Gain (IG) and Odds Ratio (OR) as a
multi-criteria for pattern selection. The algorithm tries to tackle some
limitations of state-of-the-art SD algorithms like the need for fine-tuning of
key parameters for each dataset, usage of a single pattern search criteria set
by hand, usage of non-overlapping data structures for subgroup space
exploration, and the impossibility to search for patterns by fixing some
relevant dataset variables. Thus, we compare the performance of IGSD with two
state-of-the-art SD algorithms: FSSD and SSD++. Eleven datasets are assessed
using these algorithms. For the performance evaluation, we also propose to
complement standard SD measures with IG, OR, and p-value. Obtained results show
that FSSD and SSD++ algorithms provide less reliable patterns and reduced sets
of patterns than IGSD algorithm for all datasets considered. Additionally, IGSD
provides better OR values than FSSD and SSD++, stating a higher dependence
between patterns and targets. Moreover, patterns obtained for one of the
datasets used, have been validated by a group of domain experts. Thus, patterns
provided by IGSD show better agreement with experts than patterns obtained by
FSSD and SSD++ algorithms. These results demonstrate the suitability of the
IGSD as a method for pattern discovery and suggest that the inclusion of
non-standard SD metrics allows to better evaluate discovered patterns.
- Abstract(参考訳): パターン発見は、手動で設定したしきい値よりも高い頻度のデータセットに存在するアイテム、サブシーケンス、サブ構造の集合を見つけることを目的とした機械学習技術である。
このプロセスは、データ内の繰り返しパターンや関係を識別し、貴重な洞察と知識抽出を可能にする。
本研究では,情報ゲイン (ig) とオッズ比 (or) を組み合わせた新しいパターン発見のためのsdアルゴリズムである information gained subgroup discovery (igsd) を提案する。
このアルゴリズムは、各データセットに対するキーパラメータの微調整の必要性、手で設定された単一のパターン検索基準の使用、サブグループ空間探索のための重複しないデータ構造の使用、関連するデータセット変数を修正してパターンを検索できないことなど、最先端のsdアルゴリズムの制限に対処しようとしている。
したがって、IGSDの性能をFSSDとSSD++の2つの最先端SDアルゴリズムと比較する。
11のデータセットをこれらのアルゴリズムを用いて評価する。
また,性能評価のために,標準SD尺度をIG,OR,p値で補完することを提案する。
その結果、fssdおよびssd++アルゴリズムは、考慮されたすべてのデータセットに対するigsdアルゴリズムよりも信頼性の低いパターンと少ないパターンセットを提供することが示された。
さらにIGSDは、FSSDやSSD++よりも優れたOR値を提供しており、パターンとターゲットへの依存度が高い。
さらに、使用するデータセットの1つで得られたパターンは、ドメインの専門家のグループによって検証されている。
したがって、IGSDが提供するパターンは、FSSDやSSD++のアルゴリズムで得られたパターンよりも専門家とよく一致している。
これらの結果は,パターン発見手法としてのIGSDの適合性を実証し,非標準SDメトリクスを組み込むことにより,発見パターンをよりよく評価できることを示唆している。
関連論文リスト
- RHiOTS: A Framework for Evaluating Hierarchical Time Series Forecasting Algorithms [0.393259574660092]
RHiOTSは、階層的な時系列予測モデルとアルゴリズムを実世界のデータセット上で堅牢性を評価するように設計されている。
RHiOTSは、複雑な多次元ロバストネス評価結果を直感的で容易に解釈可能なビジュアルに変換する革新的な可視化コンポーネントを組み込んでいる。
従来の統計的手法は、変換効果が非常に破壊的である場合を除き、最先端のディープラーニングアルゴリズムよりも頑健であることを示す。
論文 参考訳(メタデータ) (2024-08-06T18:52:15Z) - ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - Integrating Statistical Significance and Discriminative Power in Pattern
Discovery [2.1014808520898667]
提案手法は、統計的重要性と識別力の基準を最先端のアルゴリズムに統合する。
評価実験は, 品質劣化を伴わない識別力と統計的意義を顕著に向上させたパターンの発見において, 提案手法が果たす役割を示す。
論文 参考訳(メタデータ) (2024-01-22T14:51:01Z) - Learning nonparametric DAGs with incremental information via high-order
HSIC [13.061477915002767]
そこで本研究では,DAGを同定するために,親の判断したサブセットに基づく識別可能性条件を提案する。
最適相では、一階のヒルベルト最適独立基準(HSIC)に基づく最適化問題により、推定骨格が初期決定された親部分集合として与えられる。
チューニングフェーズでは、骨格は削除、追加、DAG形式化戦略によって局所的に調整される。
論文 参考訳(メタデータ) (2023-08-11T07:07:21Z) - Interpretable Out-Of-Distribution Detection Using Pattern Identification [0.0]
データベースプログラムのアウト・オブ・ディストリビューション(OoD)検出は最重要課題である。
文献における一般的なアプローチは、イン・オブ・ディストリビューション(in-distriion、IoD)とOoDバリデーション・サンプルを必要とする検出器を訓練する傾向がある。
我々は、より解釈可能で堅牢なOoD検出器を構築するために、説明可能なAI、すなわちPartialulパターン識別アルゴリズムから既存の研究を活用することを提案する。
論文 参考訳(メタデータ) (2023-01-24T15:35:54Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - The Data Representativeness Criterion: Predicting the Performance of
Supervised Classification Based on Data Set Similarity [4.934817254755008]
本稿では,データ代表性基準(DRC)を提案し,トレーニングデータセットが新たな未知のデータセットの表現方法を決定する。
本稿では、DRCがデータセットの類似性を定量化できるかどうか、およびDRCが教師付き分類アルゴリズムの性能に関係しているかどうかを検証するための原理の証明を示す。
論文 参考訳(メタデータ) (2020-02-27T15:08:13Z) - CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus [62.86856923633923]
我々は,同じ形状の複数のパラメトリックモデルを雑音測定に適合させる頑健な推定器を提案する。
複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。
探索の自己教師付き学習において,提案したアルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。
論文 参考訳(メタデータ) (2020-01-08T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。