論文の概要: Cluster-Based Information Retrieval by using (K-means)- Hierarchical
Parallel Genetic Algorithms Approach
- arxiv url: http://arxiv.org/abs/2008.00150v1
- Date: Sat, 1 Aug 2020 02:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:54:34.804032
- Title: Cluster-Based Information Retrieval by using (K-means)- Hierarchical
Parallel Genetic Algorithms Approach
- Title(参考訳): K-means)-階層型並列遺伝的アルゴリズムによるクラスタベース情報検索
- Authors: Sarah Hussein Toman, Mohammed Hamzah Abed, Zinah Hussein Toman
- Abstract要約: クラスタベースの情報検索は、ドキュメントの大きなデータセットを処理する場合、高速である。
検索された文書の品質を高め、IRの効率を高め、ユーザ検索から無関係な文書を減らす。
3つの共通データセット(NLP、CISI、CACM)は、リコール、精度、F測定平均を計算するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster-based information retrieval is one of the Information retrieval(IR)
tools that organize, extract features and categorize the web documents
according to their similarity. Unlike traditional approaches, cluster-based IR
is fast in processing large datasets of document. To improve the quality of
retrieved documents, increase the efficiency of IR and reduce irrelevant
documents from user search. in this paper, we proposed a (K-means) -
Hierarchical Parallel Genetic Algorithms Approach (HPGA) that combines the
K-means clustering algorithm with hybrid PG of multi-deme and master/slave PG
algorithms. K-means uses to cluster the population to k subpopulations then
take most clusters relevant to the query to manipulate in a parallel way by the
two levels of genetic parallelism, thus, irrelevant documents will not be
included in subpopulations, as a way to improve the quality of results. Three
common datasets (NLP, CISI, and CACM) are used to compute the recall,
precision, and F-measure averages. Finally, we compared the precision values of
three datasets with Genetic-IR and classic-IR. The proposed approach precision
improvements with IR-GA were 45% in the CACM, 27% in the CISI, and 25% in the
NLP. While, by comparing with Classic-IR, (k-means)-HPGA got 47% in CACM, 28%
in CISI, and 34% in NLP.
- Abstract(参考訳): クラスタベースの情報検索は、特徴を整理し、抽出し、類似性に応じてWebドキュメントを分類する情報検索(IR)ツールの1つである。
従来のアプローチとは異なり、クラスタベースのIRはドキュメントの大きなデータセットを処理するのが速い。
検索された文書の品質を高め、IRの効率を高め、ユーザ検索から無関係な文書を減らす。
本稿では,K-meansクラスタリングアルゴリズムとマルチデメとマスタ/スレーブPGのハイブリッドPGを組み合わせた(K-means)階層並列遺伝的アルゴリズムアプローチ(HPGA)を提案する。
K-平均は、集団を k 個のサブポピュレーションにクラスタリングし、クエリに関連するほとんどのクラスタを2つのレベルの遺伝的並列性によって並列に操作することで、結果の質を改善する方法として、非関連文書はサブポピュレーションに含まれない。
3つの共通データセット(NLP、CISI、CACM)は、リコール、精度、F測定平均を計算するために使用される。
最後に、3つのデータセットの精度を遺伝的IRと古典IRと比較した。
IR-GAによるアプローチ精度の改善はCACMで45%,CISIで27%,NLPで25%であった。
一方、Classic-IRと比較すると、(k-means)-HPGAはCACMが47%、CISIが28%、NLPが34%であった。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Hybridization of K-means with improved firefly algorithm for automatic
clustering in high dimension [0.0]
最適なクラスタ数を求めるため,PCAを用いてSilhouette法とElbow法を実装した。
Fireflyアルゴリズムでは、全個体群は自動的にサブ集団に分割され、収束速度を減少させ、局所的なミニマにトラップされる。
本研究は,自動クラスタリングのためのK-meansとODFAモデルを組み合わせた改良型ホタルを提案する。
論文 参考訳(メタデータ) (2023-02-09T18:43:10Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Performance evaluation results of evolutionary clustering algorithm star
for clustering heterogeneous datasets [15.154538450706474]
本稿では,進化的クラスタリングアルゴリズムstar(eca*)の性能評価のためのデータを提案する。
従来の5つのクラスタリングアルゴリズムに対するeca*の性能を調べるために、2つの実験手法が用いられた。
論文 参考訳(メタデータ) (2021-04-30T08:17:19Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。