論文の概要: Towards Automatic Clustering Analysis using Traces of Information Gain:
The InfoGuide Method
- arxiv url: http://arxiv.org/abs/2001.08677v1
- Date: Thu, 23 Jan 2020 17:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 12:39:18.731432
- Title: Towards Automatic Clustering Analysis using Traces of Information Gain:
The InfoGuide Method
- Title(参考訳): 情報ゲインのトレースを用いた自動クラスタリング解析に向けて:infoguide法
- Authors: Paulo Rocha, Diego Pinheiro, Martin Cadeiras, Carmelo Bastos-Filho
- Abstract要約: 内部メトリクスは、クラスタの検索を成功させる上で重要な要素であるが、実際のデータセットにおけるそれらの有効性は、まだ完全には理解されていない。
我々は,Kolmogorov-Smirnov統計を用いて情報ゲインの痕跡を抽出し,InfoGuide仮説を検証した。
その結果,InfoGuideはより自動的なクラスタリング解析が可能であり,非自明な統計特性を示す実世界のデータセットのクラスタ検索に適している可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.4874780144224056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering analysis has become a ubiquitous information retrieval tool in a
wide range of domains, but a more automatic framework is still lacking. Though
internal metrics are the key players towards a successful retrieval of
clusters, their effectiveness on real-world datasets remains not fully
understood, mainly because of their unrealistic assumptions underlying
datasets. We hypothesized that capturing {\it traces of information gain}
between increasingly complex clustering retrievals---{\it InfoGuide}---enables
an automatic clustering analysis with improved clustering retrievals. We
validated the {\it InfoGuide} hypothesis by capturing the traces of information
gain using the Kolmogorov-Smirnov statistic and comparing the clusters
retrieved by {\it InfoGuide} against those retrieved by other commonly used
internal metrics in artificially-generated, benchmarks, and real-world
datasets. Our results suggested that {\it InfoGuide} can enable a more
automatic clustering analysis and may be more suitable for retrieving clusters
in real-world datasets displaying nontrivial statistical properties.
- Abstract(参考訳): クラスタリング分析は、幅広いドメインにおいてユビキタスな情報検索ツールとなっているが、より自動化されたフレームワークはまだ不足している。
内部メトリクスはクラスタの検索に成功するための重要なプレーヤだが、実世界のデータセットの有効性は、主に非現実的な仮定に基づいて完全には理解されていない。
複雑なクラスタリング検索---{\it infoguide}-間における情報ゲインの「itトレース」のキャプチャは、クラスタリング検索を改善した自動クラスタリング解析を可能にすると仮定した。
我々は,Kolmogorov-Smirnov統計を用いて情報ゲインの痕跡を抽出し,得られたクラスタを,人工的に生成されたベンチマークや実世界のデータセットでよく使用される他の内部指標と比較することにより,情報ゲインの仮説を検証する。
この結果から,より自動的なクラスタリング解析が可能であり,非自明な統計特性を示す実世界のデータセットのクラスタ検索に適している可能性が示唆された。
関連論文リスト
- Order Is All You Need for Categorical Data Clustering [29.264630563297466]
名目価値属性からなる分類データは、知識発見やデータマイニングのタスクにおいてユビキタスである。
適切に定義された距離空間がないため、分類データの分布は直感的に理解することが難しい。
本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - ClusterGraph: a new tool for visualization and compression of multidimensional data [0.0]
本稿では,任意のクラスタリングアルゴリズムの出力に付加的なレイヤを提供する。
クラスタリングアルゴリズムから得られたクラスタのグローバルなレイアウトに関する情報を提供する。
論文 参考訳(メタデータ) (2024-11-08T09:40:54Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Seeking the Truth Beyond the Data. An Unsupervised Machine Learning
Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。
この記事では、最も広く使われているクラスタリング手法について詳しく説明する。
3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文 参考訳(メタデータ) (2022-07-14T14:22:36Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。