論文の概要: Text Mining Through Label Induction Grouping Algorithm Based Method
- arxiv url: http://arxiv.org/abs/2112.08486v1
- Date: Wed, 15 Dec 2021 21:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 09:35:36.072433
- Title: Text Mining Through Label Induction Grouping Algorithm Based Method
- Title(参考訳): ラベル誘導型グループ化アルゴリズムによるテキストマイニング
- Authors: Gulshan Saleem, Nisar Ahmed, Usman Qamar
- Abstract要約: その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
- 参考スコア(独自算出の注目度): 0.6813925418351433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main focus of information retrieval methods is to provide accurate and
efficient results which are cost-effective too. LINGO (Label Induction Grouping
Algorithm) is a clustering algorithm that aims to provide search results in
form of quality clusters but also has a few limitations. In this paper, our
focus is based on achieving results that are more meaningful and improving the
overall performance of the algorithm. LINGO works on two main steps; Cluster
Label Induction by using Latent Semantic Indexing technique (LSI) and Cluster
content discovery by using the Vector Space Model (VSM). As LINGO uses VSM in
cluster content discovery, our task is to replace VSM with LSI for cluster
content discovery and to analyze the feasibility of using LSI with Okapi BM25.
The next task is to compare the results of a modified method with the LINGO
original method. The research is applied to five different text-based data sets
to get more reliable results for every method. Research results show that LINGO
produces 40-50% better results when using LSI for content Discovery. From
theoretical evidence using Okapi BM25 for scoring method in LSI (LSI+Okapi
BM25) for cluster content discovery instead of VSM, also results in better
clusters generation in terms of scalability and performance when compares to
both VSM and LSI's Results.
- Abstract(参考訳): 情報検索手法の主な焦点は、コスト効率の良い正確かつ効率的な結果を提供することである。
lingO (Label induction Grouping Algorithm) は、品質クラスタの形で検索結果を提供することを目的としたクラスタリングアルゴリズムであるが、いくつかの制限がある。
本稿では,より有意義な結果の達成と,アルゴリズム全体の性能向上に焦点をあてる。
lingOは、Latent Semantic Indexing(LSI)技術によるクラスタラベル誘導と、Vector Space Model(VSM)を用いたクラスタコンテンツ発見の2つの主要なステップで動作する。
lingOは、クラスタコンテンツ発見にVSMを使用するため、VSMをLSIに置き換えてクラスタコンテンツ発見を行い、LSIをOkapi BM25で使用することの可能性を分析する。
次のタスクは、修正されたメソッドの結果をlingoオリジナルメソッドと比較することです。
この研究は5つの異なるテキストベースのデータセットに適用され、各メソッドに対してより信頼性の高い結果を得る。
その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。
VSMの代わりにLSI(LSI+Okapi BM25)のスコアリング法としてOkapi BM25を用いた理論的証拠から、VSMとLSIの結果を比較すると、スケーラビリティと性能の点でクラスタ生成性が向上する。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - CLC: Cluster Assignment via Contrastive Representation Learning [9.631532215759256]
コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。
完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-08T07:15:13Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Improving k-Means Clustering Performance with Disentangled Internal
Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。
提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文 参考訳(メタデータ) (2020-06-05T11:32:34Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。