Fugu-MT 論文翻訳(概要): Text Clustering with LLM Embeddings

論文の概要: Text Clustering with LLM Embeddings

arxiv url: http://arxiv.org/abs/2403.15112v4
Date: Fri, 9 Aug 2024 16:57:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 20:20:09.521919
Title: Text Clustering with LLM Embeddings
Title（参考訳）: LLM埋め込みによるテキストクラスタリング
Authors: Alina Petukhova, João P. Matos-Carvalho, Nuno Fachada,
Abstract要約: テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。 LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text clustering is an important method for organising the increasing volume of digital content, aiding in the structuring and discovery of hidden patterns in uncategorised data. The effectiveness of text clustering largely depends on the selection of textual embeddings and clustering algorithms. This study argues that recent advancements in large language models (LLMs) have the potential to enhance this task. The research investigates how different textual embeddings, particularly those utilised in LLMs, and various clustering algorithms influence the clustering of text datasets. A series of experiments were conducted to evaluate the impact of embeddings on clustering results, the role of dimensionality reduction through summarisation, and the adjustment of model size. The findings indicate that LLM embeddings are superior at capturing subtleties in structured language. OpenAI's GPT-3.5 Turbo model yields better results in three out of five clustering metrics across most tested datasets. Most LLM embeddings show improvements in cluster purity and provide a more informative silhouette score, reflecting a refined structural understanding of text data compared to traditional methods. Among the more lightweight models, BERT demonstrates leading performance. Additionally, it was observed that increasing model dimensionality and employing summarisation techniques do not consistently enhance clustering efficiency, suggesting that these strategies require careful consideration for practical application. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by integrating embeddings from LLMs, offering improved methodologies and suggesting new avenues for future research in various types of textual analysis.
Abstract（参考訳）: テキストクラスタリングは,非分類データにおける隠れパターンの構造化と発見を支援するために,デジタルコンテンツの量増加を組織化する重要な方法である。テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。本研究は,近年の大規模言語モデル(LLM)の進歩により,この課題が強化される可能性を示唆している。この研究は、異なるテキスト埋め込み、特にLLMで使用されるもの、および様々なクラスタリングアルゴリズムが、テキストデータセットのクラスタリングにどのように影響するかを調査する。クラスタリング結果に対する埋め込みの影響,要約による次元還元の役割,モデルサイズの調整について,一連の実験を行った。その結果,LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることが示唆された。 OpenAIのGPT-3.5 Turboモデルは、ほとんどのテストされたデータセットで5つのクラスタリングメトリクスのうち3つにおいて、より良い結果をもたらす。ほとんどのLCM埋め込みは、クラスタの純度の改善を示し、従来の方法に比べて洗練された構造的なテキストデータの理解を反映して、より情報的なシルエットスコアを提供する。より軽量なモデルの中で、BERTは主要なパフォーマンスを示している。さらに,モデル次元の増大と要約手法の採用はクラスタリング効率を継続的に向上させるものではないことが確認された。これらの結果は、洗練されたテキスト表現の必要性と、テキストクラスタリングアプリケーションにおける計算可能性との複雑なバランスを浮き彫りにする。本研究では, 従来のテキストクラスタリングフレームワークを拡張し, LLMからの埋め込みを統合し, 改良された方法論を提供し, 各種テキスト解析における新たな手法を提案する。

関連論文リスト

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation [52.794544682493814]
大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。 3つの公開ベンチマークと2つの新しいドメイン固有のデータセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-12-04T00:49:43Z)
LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。 LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文参考訳（メタデータ） (2025-11-19T13:22:08Z)
Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。 LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T15:12:58Z)
Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Cequel: Cost-Effective Querying of Large Language Models for Text Clustering [15.179854529085544]
テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。 LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
論文参考訳（メタデータ） (2025-04-22T06:57:49Z)
An Improved Deep Learning Model for Word Embeddings Based Clustering for Large Text Datasets [0.0]
単語の埋め込みを微調整することで,大規模テキストデータセットのクラスタリングを改良する手法を提案する。シルエットスコア、純度、調整されたランドインデックス(ARI)などのクラスタリング指標の大幅な改善を示す。提案手法は,大規模テキストマイニング作業における意味的理解と統計的堅牢性のギャップを埋めるのに役立つ。
論文参考訳（メタデータ） (2025-02-22T08:28:41Z)
Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文参考訳（メタデータ） (2024-11-22T12:37:41Z)
ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文参考訳（メタデータ） (2024-10-01T00:37:16Z)
Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文参考訳（メタデータ） (2024-09-30T16:57:34Z)
Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文参考訳（メタデータ） (2024-09-04T15:11:55Z)
Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-05-02T03:50:31Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文参考訳（メタデータ） (2023-12-12T22:27:29Z)
Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文参考訳（メタデータ） (2023-10-17T03:21:43Z)
CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文参考訳（メタデータ） (2023-04-20T14:04:31Z)
Unified Multi-View Orthonormal Non-Negative Graph Based Clustering Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文参考訳（メタデータ） (2022-11-03T08:18:27Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。