Fugu-MT 論文翻訳(概要): Text Clustering as Classification with LLMs

論文の概要: Text Clustering as Classification with LLMs

arxiv url: http://arxiv.org/abs/2410.00927v1
Date: Mon, 30 Sep 2024 16:57:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 00:09:47.559708
Title: Text Clustering as Classification with LLMs
Title（参考訳）: LLMを用いたテキストクラスタリング
Authors: Chen Huang, Guoxiu He,
Abstract要約: 本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
参考スコア（独自算出の注目度）: 6.030435811868953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text clustering remains valuable in real-world applications where manual labeling is cost-prohibitive. It facilitates efficient organization and analysis of information by grouping similar texts based on their representations. However, implementing this approach necessitates fine-tuned embedders for downstream data and sophisticated similarity metrics. To address this issue, this study presents a novel framework for text clustering that effectively leverages the in-context learning capacity of Large Language Models (LLMs). Instead of fine-tuning embedders, we propose to transform the text clustering into a classification task via LLM. First, we prompt LLM to generate potential labels for a given dataset. Second, after integrating similar labels generated by the LLM, we prompt the LLM to assign the most appropriate label to each sample in the dataset. Our framework has been experimentally proven to achieve comparable or superior performance to state-of-the-art clustering methods that employ embeddings, without requiring complex fine-tuning or clustering algorithms. We make our code available to the public for utilization at https://anonymous.4open.science/r/Text-Clustering-via-LLM-E500.
Abstract（参考訳）: テキストクラスタリングは、手作業によるラベリングがコストを抑える現実世界のアプリケーションでは、依然として有用である。類似したテキストを表現に基づいてグループ化することで、情報の効率的な組織化と分析を容易にする。しかし、このアプローチを実装するには、下流データと洗練された類似度メトリクスのための微調整された埋め込みが必要である。そこで本研究では,Large Language Models (LLM) のコンテキスト内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。まず、LLMに与えられたデータセットの潜在的なラベルを生成するように促す。第2に、LLMが生成した類似ラベルを統合した後、LLMにデータセットの各サンプルに最も適切なラベルを割り当てるよう促す。我々のフレームワークは、複雑な微調整やクラスタリングアルゴリズムを必要とせず、組込みを用いた最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。コードの利用はhttps://anonymous.4open.science/r/Text-Clustering-via-LLM-E500で公開しています。

関連論文リスト

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation [52.794544682493814]
大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。 3つの公開ベンチマークと2つの新しいドメイン固有のデータセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-12-04T00:49:43Z)
ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文参考訳（メタデータ） (2025-11-30T04:36:51Z)
LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。 LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文参考訳（メタデータ） (2025-11-19T13:22:08Z)
In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文参考訳（メタデータ） (2025-10-09T17:07:55Z)
Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。 LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T15:12:58Z)
HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization [0.0]
HERCULESは、多様なデータ型の階層的なk平均クラスタリングのために設計されたアルゴリズムとPythonパッケージである。階層のそれぞれのレベルでクラスタのセマンティックにリッチなタイトルと記述を生成する。インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
論文参考訳（メタデータ） (2025-06-24T20:22:00Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Cost-Effective Text Clustering with Large Language Models [15.179854529085544]
本稿では,テキストクラスタリングの精度向上のために,大規模言語モデルからのフィードバックを取り入れたコスト効率の高いフレームワークTECLを提案する。内部では、TECLはEdgeLLMまたはTriangleLLMを採用して、テキストペアの must-link/cannot-link 制約を構築しています。複数のベンチマークデータセットに対する実験により、TECLは教師なしテキストクラスタリングにおいて既存のソリューションよりも一貫して、かなり優れています。
論文参考訳（メタデータ） (2025-04-22T06:57:49Z)
Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文参考訳（メタデータ） (2025-02-26T02:19:10Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文参考訳（メタデータ） (2025-02-12T19:50:22Z)
On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。 LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-09-19T02:59:44Z)
ZeroDL: Zero-shot Distribution Learning for Text Clustering via Large Language Models [13.850983885339206]
大規模言語モデル(LLM)に向けたタスクを文脈化するための,シンプルで効果的な手法を提案する。テキストクラスタリングタスクの有効性を示すとともに,テキストからテキストへのクラスタリングをLLMに委ねることで,複数のデータセットの改善を実現している。
論文参考訳（メタデータ） (2024-06-19T08:48:05Z)
Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文参考訳（メタデータ） (2024-05-17T04:05:05Z)
Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-05-02T03:50:31Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。 LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文参考訳（メタデータ） (2024-03-22T11:08:48Z)
Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文参考訳（メタデータ） (2024-03-01T10:01:36Z)
Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文参考訳（メタデータ） (2024-01-04T18:59:49Z)
Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-10-30T00:32:47Z)
Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-07-02T09:17:11Z)
Beyond prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文参考訳（メタデータ） (2022-10-29T16:01:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。