論文の概要: Flow-based Algorithms for Improving Clusters: A Unifying Framework,
Software, and Performance
- arxiv url: http://arxiv.org/abs/2004.09608v3
- Date: Wed, 2 Feb 2022 14:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:20:44.747252
- Title: Flow-based Algorithms for Improving Clusters: A Unifying Framework,
Software, and Performance
- Title(参考訳): クラスタ改善のためのフローベースのアルゴリズム:統一フレームワーク、ソフトウェア、パフォーマンス
- Authors: K. Fountoulakis, M. Liu, D. F. Gleich, and M. W. Mahoney
- Abstract要約: グラフ内のベクトル空間やノードのクラスタリングポイントは、統計データ解析においてユビキタスプリミティブである。
このクラスタ改善問題に対するアルゴリズムの原則に着目する。
ローカルGraphClustering Pythonパッケージでこれらのアルゴリズムの効率的な実装を開発します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering points in a vector space or nodes in a graph is a ubiquitous
primitive in statistical data analysis, and it is commonly used for exploratory
data analysis. In practice, it is often of interest to "refine" or "improve" a
given cluster that has been obtained by some other method. In this survey, we
focus on principled algorithms for this cluster improvement problem. Many such
cluster improvement algorithms are flow-based methods, by which we mean that
operationally they require the solution of a sequence of maximum flow problems
on a (typically implicitly) modified data graph. These cluster improvement
algorithms are powerful, both in theory and in practice, but they have not been
widely adopted for problems such as community detection, local graph
clustering, semi-supervised learning, etc. Possible reasons for this are: the
steep learning curve for these algorithms; the lack of efficient and easy to
use software; and the lack of detailed numerical experiments on real-world data
that demonstrate their usefulness. Our objective here is to address these
issues. To do so, we guide the reader through the whole process of
understanding how to implement and apply these powerful algorithms. We present
a unifying fractional programming optimization framework that permits us to
distill, in a simple way, the crucial components of all these algorithms. It
also makes apparent similarities and differences between related methods.
Viewing these cluster improvement algorithms via a fractional programming
framework suggests directions for future algorithm development. Finally, we
develop efficient implementations of these algorithms in our
LocalGraphClustering Python package, and we perform extensive numerical
experiments to demonstrate the performance of these methods on social networks
and image-based data graphs.
- Abstract(参考訳): ベクトル空間やグラフのノードにおけるクラスタリングポイントは、統計データ解析においてユビキタスな原始的であり、探索的データ分析に一般的に用いられる。
実際には、他の方法によって得られた任意のクラスタを「再定義」あるいは「改善」することはしばしば関心がある。
本研究では,このクラスタ改善問題に対する原理アルゴリズムに着目した。
このようなクラスタ改善アルゴリズムの多くはフローベースの手法であり、運用上は(典型的には暗黙的に)修正されたデータグラフ上の最大フロー問題の列の解を必要とする。
これらのクラスタ改善アルゴリズムは理論的にも実際においても強力だが,コミュニティ検出や局所グラフクラスタリング,半教師付き学習といった問題に対して広く採用されていない。
その理由としては、これらのアルゴリズムの学習曲線の急激さ、効率的で使いやすいソフトウェアの欠如、実世界のデータに対する詳細な数値実験の欠如、などが考えられる。
私たちの目標はこれらの問題に対処することです。
そのために、これらの強力なアルゴリズムの実装と適用方法を理解するプロセス全体を読者に案内します。
我々は,これらすべてのアルゴリズムの重要なコンポーネントを,単純な方法で蒸留することを可能にする,分数型プログラミング最適化フレームワークを提案する。
また、類似点と関連する方法の違いも明らかである。
これらのクラスタ改善アルゴリズムを分数型プログラミングフレームワークで見ることは、将来のアルゴリズム開発への道筋を示唆する。
最後に,これらのアルゴリズムの効率的な実装をlocalgraphclustering pythonパッケージで開発し,ソーシャルネットワークおよび画像ベースのデータグラフ上での性能を示すために,広範な数値実験を行った。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Improved Graph-based semi-supervised learning Schemes [0.0]
本研究では,ラベルの少ない大規模データセットの分類に対処するため,いくつかの既知のアルゴリズムの精度を向上させる。
私たちのフレームワークは、グラフベースの半教師あり学習の領域にあります。
論文 参考訳(メタデータ) (2024-06-30T16:50:08Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Dual Algorithmic Reasoning [9.701208207491879]
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学習することを提案する。
アルゴリズム学習における最適化問題の2つの定義を同時に学習することで、より良い学習が可能になることを実証する。
次に、難易度の高い脳血管分類タスクにデプロイすることで、二元アルゴリズム推論の現実的な実用性を検証する。
論文 参考訳(メタデータ) (2023-02-09T08:46:23Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - A Framework and Benchmarking Study for Counterfactual Generating Methods
on Tabular Data [0.0]
カウンターファクトな説明は、機械学習の予測を説明する効果的な方法と見なされる。
このような説明を導き出そうとするアルゴリズムは、すでに数十ある。
ベンチマーク研究とフレームワークは、実践者がどのテクニックとビルディングブロックが最も適しているかを決定するのに役立ちます。
論文 参考訳(メタデータ) (2021-07-09T21:06:03Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。