論文の概要: Information-Theoretic Generative Clustering of Documents
- arxiv url: http://arxiv.org/abs/2412.13534v1
- Date: Wed, 18 Dec 2024 06:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:34.046450
- Title: Information-Theoretic Generative Clustering of Documents
- Title(参考訳): 文書の情報理論的生成クラスタリング
- Authors: Xin Du, Kumiko Tanaka-Ishii,
- Abstract要約: 文書の集合をクラスタリングするための生成クラスタリング(GC)を$mathrmX$で提示する。
大規模言語モデル(LLM)は確率分布を提供するため、2つの文書間の類似性を厳密に定義することができる。
我々はGCが最先端のパフォーマンスを達成し、従来のクラスタリング手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 24.56214029342293
- License:
- Abstract: We present {\em generative clustering} (GC) for clustering a set of documents, $\mathrm{X}$, by using texts $\mathrm{Y}$ generated by large language models (LLMs) instead of by clustering the original documents $\mathrm{X}$. Because LLMs provide probability distributions, the similarity between two documents can be rigorously defined in an information-theoretic manner by the KL divergence. We also propose a natural, novel clustering algorithm by using importance sampling. We show that GC achieves the state-of-the-art performance, outperforming any previous clustering method often by a large margin. Furthermore, we show an application to generative document retrieval in which documents are indexed via hierarchical clustering and our method improves the retrieval accuracy.
- Abstract(参考訳): 我々は、文書の集合をクラスタリングするためのGC(生成的クラスタリング)を$\mathrm{X}$で、元のドキュメントを$\mathrm{X}$でクラスタリングする代わりに、大きな言語モデル(LLM)によって生成されたテキスト$\mathrm{Y}$を使って提示する。
LLMは確率分布を提供するので、2つの文書間の類似性はKLの発散によって情報理論的に厳密に定義することができる。
また,重要サンプリングを用いた自然なクラスタリングアルゴリズムを提案する。
我々はGCが最先端の性能を達成し、従来のクラスタリング手法よりも大きなマージンで優れていることを示す。
さらに,文書を階層的クラスタリングによってインデックス化する生成文書検索への応用を示し,検索精度を向上する手法を提案する。
関連論文リスト
- k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Graph-Convolutional Networks: Named Entity Recognition and Large Language Model Embedding in Document Clustering [9.929301228994095]
本稿では、文書クラスタリングのためのグラフベースのフレームワークに、名前付きエンティティ認識(NER)とLarge Language Models(LLM)を組み込む新しいアプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて最適化された名前付きエンティティ類似性によって重み付けされた文書とエッジのノードでグラフを構築する。
実験結果から,本手法はクラスタリングにおける従来の共起型手法,特に名前付きエンティティに富んだ文書よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-19T14:03:22Z) - Generative Dense Retrieval: Memory Can Be a Burden [16.964086245755798]
Generative Retrieval (GR) はクエリが与えられたドキュメント識別子を自動でデコードする。
Dense Retrieval (DR) はクラスタから関連ドキュメントへのきめ細かいクラスタ内マッチングを実現するために導入された。
DRは、NQデータセットを複数の設定で平均3.0R@100改善する。
論文 参考訳(メタデータ) (2024-01-19T04:24:07Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Top-Down Deep Clustering with Multi-generator GANs [0.0]
ディープクラスタリング(DC)は、クラスタ分析に最適な埋め込み空間を学習する。
複数のジェネレータ(MGAN)を持つGANをベースとした新しい技術であるHC-MGANを提案する。
本手法は,MGANの各生成元が実データ分布のサブリージョンと相関するデータを生成する傾向にあるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2021-12-06T22:53:12Z) - Vec2GC -- A Graph Based Clustering Method for Text Representations [0.0]
Vec2GCは、任意のテキストコーパスの用語やドキュメントをクラスタ化するエンドツーエンドパイプラインである。
Vec2GCクラスタリングアルゴリズムは、階層的なクラスタリングもサポートする密度ベースのアプローチである。
論文 参考訳(メタデータ) (2021-04-15T12:52:30Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。