Fugu-MT 論文翻訳(概要): Text Mining Through Label Induction Grouping Algorithm Based Method

論文の概要: Text Mining Through Label Induction Grouping Algorithm Based Method

arxiv url: http://arxiv.org/abs/2112.08486v1
Date: Wed, 15 Dec 2021 21:20:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-18 09:35:36.072433
Title: Text Mining Through Label Induction Grouping Algorithm Based Method
Title（参考訳）: ラベル誘導型グループ化アルゴリズムによるテキストマイニング
Authors: Gulshan Saleem, Nisar Ahmed, Usman Qamar
Abstract要約: その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40～50%よい結果が得られた。その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40～50%よい結果が得られた。
参考スコア（独自算出の注目度）: 0.6813925418351433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The main focus of information retrieval methods is to provide accurate and efficient results which are cost-effective too. LINGO (Label Induction Grouping Algorithm) is a clustering algorithm that aims to provide search results in form of quality clusters but also has a few limitations. In this paper, our focus is based on achieving results that are more meaningful and improving the overall performance of the algorithm. LINGO works on two main steps; Cluster Label Induction by using Latent Semantic Indexing technique (LSI) and Cluster content discovery by using the Vector Space Model (VSM). As LINGO uses VSM in cluster content discovery, our task is to replace VSM with LSI for cluster content discovery and to analyze the feasibility of using LSI with Okapi BM25. The next task is to compare the results of a modified method with the LINGO original method. The research is applied to five different text-based data sets to get more reliable results for every method. Research results show that LINGO produces 40-50% better results when using LSI for content Discovery. From theoretical evidence using Okapi BM25 for scoring method in LSI (LSI+Okapi BM25) for cluster content discovery instead of VSM, also results in better clusters generation in terms of scalability and performance when compares to both VSM and LSI's Results.
Abstract（参考訳）: 情報検索手法の主な焦点は、コスト効率の良い正確かつ効率的な結果を提供することである。 lingO (Label induction Grouping Algorithm) は、品質クラスタの形で検索結果を提供することを目的としたクラスタリングアルゴリズムであるが、いくつかの制限がある。本稿では,より有意義な結果の達成と,アルゴリズム全体の性能向上に焦点をあてる。 lingOは、Latent Semantic Indexing(LSI)技術によるクラスタラベル誘導と、Vector Space Model(VSM)を用いたクラスタコンテンツ発見の2つの主要なステップで動作する。 lingOは、クラスタコンテンツ発見にVSMを使用するため、VSMをLSIに置き換えてクラスタコンテンツ発見を行い、LSIをOkapi BM25で使用することの可能性を分析する。次のタスクは、修正されたメソッドの結果をlingoオリジナルメソッドと比較することです。この研究は5つの異なるテキストベースのデータセットに適用され、各メソッドに対してより信頼性の高い結果を得る。その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40～50%よい結果が得られた。 VSMの代わりにLSI(LSI+Okapi BM25)のスコアリング法としてOkapi BM25を用いた理論的証拠から、VSMとLSIの結果を比較すると、スケーラビリティと性能の点でクラスタ生成性が向上する。

関連論文リスト

An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Efficient Latent Semantic Clustering for Scaling Test-Time Computation of LLMs [14.34599799034748]
テスト時間計算のスケールは、大規模言語モデルの信頼性と品質を改善するための有望な戦略となっている。主要な共有コンポーネントはセマンティッククラスタリング(セマンティッククラスタリング)である。本稿では,ジェネレータLSMの内部隠蔽状態をクラスタリングに利用する軽量でコンテキストに敏感なLatent Semantic Clustering (LSC)を提案する。
論文参考訳（メタデータ） (2025-05-31T02:08:32Z)
Document Valuation in LLM Summaries: A Cluster Shapley Approach [0.0]
大規模言語モデル(LLM)は、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
論文参考訳（メタデータ） (2025-05-28T15:14:21Z)
Balancing Complexity and Informativeness in LLM-Based Clustering: Finding the Goldilocks Zone [0.0]
本稿では,情報性と認知的単純さのトレードオフを定量化することにより,最適なクラスタ数について検討する。大規模言語モデル(LLM)を用いてクラスタ名を生成し,その有効性を評価する。語彙分類における言語効率を並列化する16-22クラスタの最適範囲を同定する。
論文参考訳（メタデータ） (2025-04-06T01:16:22Z)
An Improved Deep Learning Model for Word Embeddings Based Clustering for Large Text Datasets [0.0]
単語の埋め込みを微調整することで,大規模テキストデータセットのクラスタリングを改良する手法を提案する。シルエットスコア、純度、調整されたランドインデックス(ARI)などのクラスタリング指標の大幅な改善を示す。提案手法は,大規模テキストマイニング作業における意味的理解と統計的堅牢性のギャップを埋めるのに役立つ。
論文参考訳（メタデータ） (2025-02-22T08:28:41Z)
k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文参考訳（メタデータ） (2025-02-12T19:50:22Z)
ICLERB: In-Context Learning Embedding and Reranker Benchmark [45.40331863265474]
In-Context Learning (ICL)により、大規模言語モデルでは、関連する情報でプロンプトを条件付けすることで、新しいタスクを実行できる。従来の検索手法は意味的関連性を重視し,検索を探索問題として扱う。 ICLタスクの効用を最大化する文書を選択することを目的としたレコメンデーション問題として、ICLのリフレーミング検索を提案する。
論文参考訳（メタデータ） (2024-11-28T06:28:45Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文参考訳（メタデータ） (2024-08-13T10:15:55Z)
Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文参考訳（メタデータ） (2024-06-12T08:30:16Z)
LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文参考訳（メタデータ） (2024-06-06T03:46:59Z)
Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。 LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文参考訳（メタデータ） (2024-03-22T11:08:48Z)
OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文参考訳（メタデータ） (2024-03-11T09:46:41Z)
Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-07-02T09:17:11Z)
CLC: Cluster Assignment via Contrastive Representation Learning [9.631532215759256]
コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージンで上回ります。
論文参考訳（メタデータ） (2023-06-08T07:15:13Z)
Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。 DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2021-05-11T08:00:36Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)
Improving k-Means Clustering Performance with Disentangled Internal Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文参考訳（メタデータ） (2020-06-05T11:32:34Z)
Clustering Binary Data by Application of Combinatorial Optimization Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文参考訳（メタデータ） (2020-01-06T23:33:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。