論文の概要: Text Mining Through Label Induction Grouping Algorithm Based Method
- arxiv url: http://arxiv.org/abs/2112.08486v1
- Date: Wed, 15 Dec 2021 21:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 09:35:36.072433
- Title: Text Mining Through Label Induction Grouping Algorithm Based Method
- Title(参考訳): ラベル誘導型グループ化アルゴリズムによるテキストマイニング
- Authors: Gulshan Saleem, Nisar Ahmed, Usman Qamar
- Abstract要約: その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
- 参考スコア(独自算出の注目度): 0.6813925418351433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main focus of information retrieval methods is to provide accurate and
efficient results which are cost-effective too. LINGO (Label Induction Grouping
Algorithm) is a clustering algorithm that aims to provide search results in
form of quality clusters but also has a few limitations. In this paper, our
focus is based on achieving results that are more meaningful and improving the
overall performance of the algorithm. LINGO works on two main steps; Cluster
Label Induction by using Latent Semantic Indexing technique (LSI) and Cluster
content discovery by using the Vector Space Model (VSM). As LINGO uses VSM in
cluster content discovery, our task is to replace VSM with LSI for cluster
content discovery and to analyze the feasibility of using LSI with Okapi BM25.
The next task is to compare the results of a modified method with the LINGO
original method. The research is applied to five different text-based data sets
to get more reliable results for every method. Research results show that LINGO
produces 40-50% better results when using LSI for content Discovery. From
theoretical evidence using Okapi BM25 for scoring method in LSI (LSI+Okapi
BM25) for cluster content discovery instead of VSM, also results in better
clusters generation in terms of scalability and performance when compares to
both VSM and LSI's Results.
- Abstract(参考訳): 情報検索手法の主な焦点は、コスト効率の良い正確かつ効率的な結果を提供することである。
lingO (Label induction Grouping Algorithm) は、品質クラスタの形で検索結果を提供することを目的としたクラスタリングアルゴリズムであるが、いくつかの制限がある。
本稿では,より有意義な結果の達成と,アルゴリズム全体の性能向上に焦点をあてる。
lingOは、Latent Semantic Indexing(LSI)技術によるクラスタラベル誘導と、Vector Space Model(VSM)を用いたクラスタコンテンツ発見の2つの主要なステップで動作する。
lingOは、クラスタコンテンツ発見にVSMを使用するため、VSMをLSIに置き換えてクラスタコンテンツ発見を行い、LSIをOkapi BM25で使用することの可能性を分析する。
次のタスクは、修正されたメソッドの結果をlingoオリジナルメソッドと比較することです。
この研究は5つの異なるテキストベースのデータセットに適用され、各メソッドに対してより信頼性の高い結果を得る。
その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
VSMの代わりにLSI(LSI+Okapi BM25)のスコアリング法としてOkapi BM25を用いた理論的証拠から、VSMとLSIの結果を比較すると、スケーラビリティと性能の点でクラスタ生成性が向上する。
関連論文リスト
- k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Dial-In LLM: Human-Aligned Dialogue Intent Clustering with LLM-in-the-loop [13.110146614092349]
我々は,大言語モデルの優れた言語理解能力を活用して,よりよい校正意図クラスタリングアルゴリズムを設計する。
本稿では,クラスタレベルの改善と高品質なクラスタの継続的な発見を容易にする反復クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - ICLERB: In-Context Learning Embedding and Reranker Benchmark [45.40331863265474]
In-Context Learning (ICL)により、大規模言語モデルでは、関連する情報でプロンプトを条件付けすることで、新しいタスクを実行できる。
従来の検索手法は意味的関連性を重視し,検索を探索問題として扱う。
ICLタスクの効用を最大化する文書を選択することを目的としたレコメンデーション問題として、ICLのリフレーミング検索を提案する。
論文 参考訳(メタデータ) (2024-11-28T06:28:45Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Improving k-Means Clustering Performance with Disentangled Internal
Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。
提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文 参考訳(メタデータ) (2020-06-05T11:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。