論文の概要: HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization
- arxiv url: http://arxiv.org/abs/2506.19992v1
- Date: Tue, 24 Jun 2025 20:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.526088
- Title: HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization
- Title(参考訳): HERCULES:LLMを用いた階層的埋め込みに基づく再帰クラスタリングによる効率的な要約
- Authors: Gabor Petnehazi, Bernadett Aradi,
- Abstract要約: HERCULESは、多様なデータ型の階層的なk平均クラスタリングのために設計されたアルゴリズムとPythonパッケージである。
階層のそれぞれのレベルでクラスタのセマンティックにリッチなタイトルと記述を生成する。
インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of complex datasets across various modalities necessitates advanced analytical tools that not only group data effectively but also provide human-understandable insights into the discovered structures. We introduce HERCULES (Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization), a novel algorithm and Python package designed for hierarchical k-means clustering of diverse data types, including text, images, and numeric data (processed one modality per run). HERCULES constructs a cluster hierarchy by recursively applying k-means clustering, starting from individual data points at level 0. A key innovation is its deep integration of Large Language Models (LLMs) to generate semantically rich titles and descriptions for clusters at each level of the hierarchy, significantly enhancing interpretability. The algorithm supports two main representation modes: `direct' mode, which clusters based on original data embeddings or scaled numeric features, and `description' mode, which clusters based on embeddings derived from LLM-generated summaries. Users can provide a `topic\_seed' to guide LLM-generated summaries towards specific themes. An interactive visualization tool facilitates thorough analysis and understanding of the clustering results. We demonstrate HERCULES's capabilities and discuss its potential for extracting meaningful, hierarchical knowledge from complex datasets.
- Abstract(参考訳): 様々なモードにわたる複雑なデータセットの爆発的な成長は、グループデータを効果的にグループ化するだけでなく、発見された構造に対する人間の理解可能な洞察を提供する高度な分析ツールを必要とする。
HERCULES (hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization) は,テキスト,画像,数値データなど多種多様なデータ型をクラスタリングするための,新しいアルゴリズムとPythonパッケージである。
HERCULESは、レベル0の個々のデータポイントから始まるk平均クラスタリングを再帰的に適用することで、クラスタ階層を構築する。
大きな言語モデル(LLM)を深く統合することで、階層のレベルごとにクラスタのセマンティックにリッチなタイトルや記述を生成し、解釈可能性を大幅に向上させる。
このアルゴリズムは、2つの主要な表現モードをサポートしている: ‘direct'モード、オリジナルのデータ埋め込みまたはスケールした数値特徴に基づくクラスタ、そして'description'モード。
ユーザは 'topic\_seed' を提供して LLM 生成した要約を特定のテーマに導くことができる。
インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
HERCULESの能力を実証し、複雑なデータセットから有意義で階層的な知識を抽出する可能性について論じる。
関連論文リスト
- Hierarchical clustering with maximum density paths and mixture models [44.443538161979056]
t-NEBは確率的に基底化された階層的クラスタリング法である。
自然な高次元データに対して最先端のクラスタリング性能が得られる。
論文 参考訳(メタデータ) (2025-03-19T15:37:51Z) - An Improved Deep Learning Model for Word Embeddings Based Clustering for Large Text Datasets [0.0]
単語の埋め込みを微調整することで,大規模テキストデータセットのクラスタリングを改良する手法を提案する。
シルエットスコア、純度、調整されたランドインデックス(ARI)などのクラスタリング指標の大幅な改善を示す。
提案手法は,大規模テキストマイニング作業における意味的理解と統計的堅牢性のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2025-02-22T08:28:41Z) - k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids [0.0]
k-LLMmeansはテキストクラスタリングのためのk-meansアルゴリズムの新しい修正である。
k-LLMmeansはk-meansや他の伝統的なベースラインよりも一貫して優れていることを示す。
そこで本研究では,StackExchangeをベースとして,テキストストリームクラスタリング手法の評価を行うベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Organizing Unstructured Image Collections using Natural Language [37.16101036513514]
大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的としたOpen-ended Semantic Multiple Clustering (OpenSMC) の課題を紹介する。
当社のフレームワークであるX-Cluster: eXploratory Clusteringは、テキストを推論プロキシとして扱い、画像を基準毎に意味のあるクラスタにグループ化する。
X-Clusterは意味のあるパーティションを効果的に公開し、バイアス発見やソーシャルメディア画像人気分析などの下流アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-10-07T17:21:46Z) - NeurCAM: Interpretable Neural Clustering via Additive Models [3.4437947384641037]
解釈可能なクラスタリングアルゴリズムは、取得したグループを説明しながら、類似したデータポイントをグループ化する。
本稿では、解釈可能なクラスタリング問題に対する新しいアプローチであるNeurCAM(Neur Clustering Additive Model)を紹介する。
本手法は,テキストデータのクラスタリングにおいて,他の解釈可能なクラスタリング手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-23T20:32:57Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Cluster Explanation via Polyhedral Descriptions [0.0]
クラスタリングは教師なしの学習問題であり、競合しないデータポイントを同様の機能を持つグループに分割することを目的としている。
従来のクラスタリングアルゴリズムは、グループ割り当ての解釈可能性ではなく、正確性に重点を置いているため、グループに対する限られた洞察を提供する。
本稿では,各クラスタのまわりにポリヘドラを配置し,結果として生じるポリヘドラの複雑さを最小化して,クラスタを説明するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:26:44Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Deep Descriptive Clustering [24.237000220172906]
本稿では,解釈可能なタグを用いた説明を同時に生成しながら,複雑なデータに対してクラスタリングを行うための新しい設定について検討する。
我々は,入力に対する経験的分布と,クラスタリング目的に対して誘導されたクラスタリングラベルの相互情報を最大化することにより,優れたクラスタを形成する。
公開データによる実験結果から,クラスタリング性能の競争ベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-24T21:40:16Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。