論文の概要: Towards Practical Explainability with Cluster Descriptors
- arxiv url: http://arxiv.org/abs/2210.10662v2
- Date: Thu, 20 Oct 2022 16:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 10:59:24.975258
- Title: Towards Practical Explainability with Cluster Descriptors
- Title(参考訳): クラスターディスクリプタによる実用的説明可能性の実現に向けて
- Authors: Xiaoyuan Liu, Ilya Tyagin, Hayato Ushijima-Mwesigwa, Indradeep Ghosh,
Ilya Safro
- Abstract要約: 本稿では,クラスタ記述子を解析することにより,クラスタをより説明しやすいものにすることの課題について検討する。
目標は、クラスタディスクリプタと呼ばれる各クラスタの代表的なタグセットを見つけることだ。
本稿では,説明可能性に寄与せず,クラスタを十分に区別しないタグが最適記述子に追加されないような,従来のモデルを強化する新しい説明可能性モデルを提案する。
- 参考スコア(独自算出の注目度): 3.899688920770429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of machine learning, improving its explainability
has become a crucial research goal. We study the problem of making the clusters
more explainable by investigating the cluster descriptors. Given a set of
objects $S$, a clustering of these objects $\pi$, and a set of tags $T$ that
have not participated in the clustering algorithm. Each object in $S$ is
associated with a subset of $T$. The goal is to find a representative set of
tags for each cluster, referred to as the cluster descriptors, with the
constraint that these descriptors we find are pairwise disjoint, and the total
size of all the descriptors is minimized. In general, this problem is NP-hard.
We propose a novel explainability model that reinforces the previous models in
such a way that tags that do not contribute to explainability and do not
sufficiently distinguish between clusters are not added to the optimal
descriptors. The proposed model is formulated as a quadratic unconstrained
binary optimization problem which makes it suitable for solving on modern
optimization hardware accelerators. We experimentally demonstrate how a
proposed explainability model can be solved on specialized hardware for
accelerating combinatorial optimization, the Fujitsu Digital Annealer, and use
real-life Twitter and PubMed datasets for use cases.
- Abstract(参考訳): 機械学習の急速な発展により、その説明可能性の向上は重要な研究目標となっている。
本研究では,クラスタ記述子を調べることにより,クラスタをより説明しやすくする問題について検討する。
オブジェクトのセットに$s$、これらのオブジェクトのクラスタリングに$\pi$、クラスタリングアルゴリズムには参加していないタグのセット$t$が与えられる。
$s$のそれぞれのオブジェクトは$t$のサブセットに関連付けられる。
目標は、クラスタディスクリプタと呼ばれる各クラスタの代表的なタグセットを見つけることであり、これらのディスクリプタはペアで切り離され、すべてのディスクリプタの総サイズが最小になる。
一般に、この問題はNPハードである。
本稿では,説明可能性に寄与せず,クラスタ間を十分に区別しないタグが最適記述子に付加されないように,先行モデルを強化する新しい説明可能性モデルを提案する。
提案モデルは2次非制約二元最適化問題として定式化され、現代の最適化ハードウェアアクセラレーターの解法に適している。
本研究では,組合わせ最適化を高速化する専用ハードウェア,富士通デジタルアニーラ,実生活用twitterおよびpubmedデータセットを用いた説明可能性モデルの実現を実験的に実証する。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - How to Find a Good Explanation for Clustering? [7.951746797489421]
Moshkovitz氏、Dasgupta氏、Rashtchian氏、Frost氏(ICML 2020)は、説明可能な$k$-meansと$k$-medianクラスタリングのエレガントなモデルを提案した。
説明可能なクラスタリングに関する2つの自然なアルゴリズム的問題について検討する。
厳密なアルゴリズム分析では、入力サイズ、データの寸法、外乱数、クラスタ数、近似比といったパラメータが、説明可能なクラスタリングの計算複雑性に与える影響について光を当てています。
論文 参考訳(メタデータ) (2021-12-13T11:48:38Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Deep Descriptive Clustering [24.237000220172906]
本稿では,解釈可能なタグを用いた説明を同時に生成しながら,複雑なデータに対してクラスタリングを行うための新しい設定について検討する。
我々は,入力に対する経験的分布と,クラスタリング目的に対して誘導されたクラスタリングラベルの相互情報を最大化することにより,優れたクラスタを形成する。
公開データによる実験結果から,クラスタリング性能の競争ベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-24T21:40:16Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Exact Recovery of Mangled Clusters with Same-Cluster Queries [20.03712152278538]
半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。
我々は、$n$ポイントを$k$クラスタに分割するアルゴリズムを設計し、$O(k3 ln k ln n)$oracleクエリと$tildeO(kn + k3)$でクラスタを非分類エラーで復元する。
論文 参考訳(メタデータ) (2020-06-08T15:27:58Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z) - Efficient Algorithms for Generating Provably Near-Optimal Cluster
Descriptors for Explainability [36.11663695534294]
本稿では,クラスタに対する簡潔な表現を構築するための最近のアプローチを拡張して,クラスタをより解釈しやすくする問題について検討する。
我々は,その問題に対する性能保証を証明可能な近似アルゴリズムを開発した。
また、異なる脅威レベルを表すゲノム配列のクラスタを含むデータセットからのクラスタを説明するアプリケーションを示す。
論文 参考訳(メタデータ) (2020-02-06T19:49:54Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。