論文の概要: Discovery data topology with the closure structure. Theoretical and
practical aspects
- arxiv url: http://arxiv.org/abs/2010.02628v3
- Date: Tue, 30 Mar 2021 08:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:50:33.824441
- Title: Discovery data topology with the closure structure. Theoretical and
practical aspects
- Title(参考訳): クロージャ構造によるデータトポロジの発見。
理論的・実践的側面
- Authors: Tatiana Makhalova, Aleksey Buzmakov, Sergei O. Kuznetsov and Amedeo
Napoli
- Abstract要約: クローズドアイテムセットとその最小生成元に基づく簡潔な表現(クロージャ構造)を導入する。
本稿では,形式的概念分析の観点からクロージャ構造の形式化を提案する。
本稿では,GDPMアルゴリズムを用いて理論的結果と実用的な結果を示す。
- 参考スコア(独自算出の注目度): 21.70710923045654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are revisiting pattern mining and especially itemset
mining, which allows one to analyze binary datasets in searching for
interesting and meaningful association rules and respective itemsets in an
unsupervised way. While a summarization of a dataset based on a set of patterns
does not provide a general and satisfying view over a dataset, we introduce a
concise representation -- the closure structure -- based on closed itemsets and
their minimum generators, for capturing the intrinsic content of a dataset. The
closure structure allows one to understand the topology of the dataset in the
whole and the inherent complexity of the data. We propose a formalization of
the closure structure in terms of Formal Concept Analysis, which is well
adapted to study this data topology. We present and demonstrate theoretical
results, and as well, practical results using the GDPM algorithm. GDPM is
rather unique in its functionality as it returns a characterization of the
topology of a dataset in terms of complexity levels, highlighting the diversity
and the distribution of the itemsets. Finally, a series of experiments shows
how GDPM can be practically used and what can be expected from the output.
- Abstract(参考訳): 本稿では,パターンマイニング,特にアイテムセットマイニングについて再検討し,興味深く有意義な関連ルールや各アイテムセットを教師なしの方法で検索することで,バイナリデータセットの分析を可能にする。
パターンの集合に基づくデータセットの要約は、データセットに対する一般的かつ満足なビューを提供しないが、データセットの本質的な内容を取得するために、クローズドアイテムセットとそれらの最小生成物に基づく簡潔な表現(クロージャ構造)を導入する。
クロージャ構造により、データセット全体のトポロジとデータ固有の複雑さを理解することができる。
本稿では,このデータトポロジの研究に適した形式的概念解析の観点から,クロージャ構造の形式化を提案する。
本稿では,GDPMアルゴリズムを用いて理論的結果と実用的な結果を示す。
GDPMは、複雑性レベルの観点からデータセットのトポロジの特徴を返却し、アイテムセットの多様性と分布を強調するため、その機能においてかなりユニークなものである。
最後に、GDPMが実際にどのように使われるか、出力から何を期待できるかを示す一連の実験がある。
関連論文リスト
- Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - Tree-based variational inference for Poisson log-normal models [47.82745603191512]
階層木は、しばしば近接基準に基づいてエンティティを組織するために使用される。
現在のカウントデータモデルは、この構造化情報を利用していない。
本稿では,PLNモデルの拡張としてPLN-Treeモデルを導入し,階層的カウントデータをモデル化する。
論文 参考訳(メタデータ) (2024-06-25T08:24:35Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Unsupervised hierarchical clustering using the learning dynamics of RBMs [0.0]
Restricted Boltzmann Machine (RBM) の学習力学を利用した関係データツリー構築のための新しい汎用的手法を提案する。
提案手法は,Plefka拡張から派生した平均場アプローチに基づいて,無秩序なシステムの文脈で開発された。
人工的に階層的なデータセットと3つの異なる実世界のデータセット(桁のイメージ、ヒトゲノムの突然変異、タンパク質のファミリー)でテストした。
論文 参考訳(メタデータ) (2023-02-03T16:53:32Z) - Topological Learning in Multi-Class Data Sets [0.3050152425444477]
フィードフォワードディープニューラルネットワーク(DNN)の学習におけるトポロジカル複雑度の影響について検討する。
我々は,複数の構築およびオープンソースデータセットに対するトポロジ的分類アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-01-23T21:54:25Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Structural Learning of Probabilistic Sentential Decision Diagrams under
Partial Closed-World Assumption [127.439030701253]
確率感性決定図は構造化分解可能な回路のクラスである。
本稿では,回路の論理的基盤を暗黙的に提供する部分閉世界仮定に基づく新しいスキームを提案する。
予備実験では、提案手法がトレーニングデータに適切に適合し、基礎となる論理的基盤と整合性を維持した上で、テストデータによく適合することを示した。
論文 参考訳(メタデータ) (2021-07-26T12:01:56Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。