論文の概要: HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization
- arxiv url: http://arxiv.org/abs/2506.19992v1
- Date: Tue, 24 Jun 2025 20:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.526088
- Title: HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization
- Title(参考訳): HERCULES:LLMを用いた階層的埋め込みに基づく再帰クラスタリングによる効率的な要約
- Authors: Gabor Petnehazi, Bernadett Aradi,
- Abstract要約: HERCULESは、多様なデータ型の階層的なk平均クラスタリングのために設計されたアルゴリズムとPythonパッケージである。
階層のそれぞれのレベルでクラスタのセマンティックにリッチなタイトルと記述を生成する。
インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of complex datasets across various modalities necessitates advanced analytical tools that not only group data effectively but also provide human-understandable insights into the discovered structures. We introduce HERCULES (Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization), a novel algorithm and Python package designed for hierarchical k-means clustering of diverse data types, including text, images, and numeric data (processed one modality per run). HERCULES constructs a cluster hierarchy by recursively applying k-means clustering, starting from individual data points at level 0. A key innovation is its deep integration of Large Language Models (LLMs) to generate semantically rich titles and descriptions for clusters at each level of the hierarchy, significantly enhancing interpretability. The algorithm supports two main representation modes: `direct' mode, which clusters based on original data embeddings or scaled numeric features, and `description' mode, which clusters based on embeddings derived from LLM-generated summaries. Users can provide a `topic\_seed' to guide LLM-generated summaries towards specific themes. An interactive visualization tool facilitates thorough analysis and understanding of the clustering results. We demonstrate HERCULES's capabilities and discuss its potential for extracting meaningful, hierarchical knowledge from complex datasets.
- Abstract(参考訳): 様々なモードにわたる複雑なデータセットの爆発的な成長は、グループデータを効果的にグループ化するだけでなく、発見された構造に対する人間の理解可能な洞察を提供する高度な分析ツールを必要とする。
HERCULES (hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization) は,テキスト,画像,数値データなど多種多様なデータ型をクラスタリングするための,新しいアルゴリズムとPythonパッケージである。
HERCULESは、レベル0の個々のデータポイントから始まるk平均クラスタリングを再帰的に適用することで、クラスタ階層を構築する。
大きな言語モデル(LLM)を深く統合することで、階層のレベルごとにクラスタのセマンティックにリッチなタイトルや記述を生成し、解釈可能性を大幅に向上させる。
このアルゴリズムは、2つの主要な表現モードをサポートしている: ‘direct'モード、オリジナルのデータ埋め込みまたはスケールした数値特徴に基づくクラスタ、そして'description'モード。
ユーザは 'topic\_seed' を提供して LLM 生成した要約を特定のテーマに導くことができる。
インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
HERCULESの能力を実証し、複雑なデータセットから有意義で階層的な知識を抽出する可能性について論じる。
関連論文リスト
- Hierarchical clustering with maximum density paths and mixture models [44.443538161979056]
t-NEBは確率的に基底化された階層的クラスタリング法である。
自然な高次元データに対して最先端のクラスタリング性能が得られる。
論文 参考訳(メタデータ) (2025-03-19T15:37:51Z) - k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids [0.0]
k-LLMmeansはテキストクラスタリングのためのk-meansアルゴリズムの新しい修正である。
k-LLMmeansはk-meansや他の伝統的なベースラインよりも一貫して優れていることを示す。
そこで本研究では,StackExchangeをベースとして,テキストストリームクラスタリング手法の評価を行うベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Organizing Unstructured Image Collections using Natural Language [37.16101036513514]
大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的としたOpen-ended Semantic Multiple Clustering (OpenSMC) の課題を紹介する。
当社のフレームワークであるX-Cluster: eXploratory Clusteringは、テキストを推論プロキシとして扱い、画像を基準毎に意味のあるクラスタにグループ化する。
X-Clusterは意味のあるパーティションを効果的に公開し、バイアス発見やソーシャルメディア画像人気分析などの下流アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-10-07T17:21:46Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Cluster Explanation via Polyhedral Descriptions [0.0]
クラスタリングは教師なしの学習問題であり、競合しないデータポイントを同様の機能を持つグループに分割することを目的としている。
従来のクラスタリングアルゴリズムは、グループ割り当ての解釈可能性ではなく、正確性に重点を置いているため、グループに対する限られた洞察を提供する。
本稿では,各クラスタのまわりにポリヘドラを配置し,結果として生じるポリヘドラの複雑さを最小化して,クラスタを説明するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:26:44Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。