論文の概要: Cluster-Based Information Retrieval by using (K-means)- Hierarchical
Parallel Genetic Algorithms Approach
- arxiv url: http://arxiv.org/abs/2008.00150v1
- Date: Sat, 1 Aug 2020 02:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:54:34.804032
- Title: Cluster-Based Information Retrieval by using (K-means)- Hierarchical
Parallel Genetic Algorithms Approach
- Title(参考訳): K-means)-階層型並列遺伝的アルゴリズムによるクラスタベース情報検索
- Authors: Sarah Hussein Toman, Mohammed Hamzah Abed, Zinah Hussein Toman
- Abstract要約: クラスタベースの情報検索は、ドキュメントの大きなデータセットを処理する場合、高速である。
検索された文書の品質を高め、IRの効率を高め、ユーザ検索から無関係な文書を減らす。
3つの共通データセット(NLP、CISI、CACM)は、リコール、精度、F測定平均を計算するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster-based information retrieval is one of the Information retrieval(IR)
tools that organize, extract features and categorize the web documents
according to their similarity. Unlike traditional approaches, cluster-based IR
is fast in processing large datasets of document. To improve the quality of
retrieved documents, increase the efficiency of IR and reduce irrelevant
documents from user search. in this paper, we proposed a (K-means) -
Hierarchical Parallel Genetic Algorithms Approach (HPGA) that combines the
K-means clustering algorithm with hybrid PG of multi-deme and master/slave PG
algorithms. K-means uses to cluster the population to k subpopulations then
take most clusters relevant to the query to manipulate in a parallel way by the
two levels of genetic parallelism, thus, irrelevant documents will not be
included in subpopulations, as a way to improve the quality of results. Three
common datasets (NLP, CISI, and CACM) are used to compute the recall,
precision, and F-measure averages. Finally, we compared the precision values of
three datasets with Genetic-IR and classic-IR. The proposed approach precision
improvements with IR-GA were 45% in the CACM, 27% in the CISI, and 25% in the
NLP. While, by comparing with Classic-IR, (k-means)-HPGA got 47% in CACM, 28%
in CISI, and 34% in NLP.
- Abstract(参考訳): クラスタベースの情報検索は、特徴を整理し、抽出し、類似性に応じてWebドキュメントを分類する情報検索(IR)ツールの1つである。
従来のアプローチとは異なり、クラスタベースのIRはドキュメントの大きなデータセットを処理するのが速い。
検索された文書の品質を高め、IRの効率を高め、ユーザ検索から無関係な文書を減らす。
本稿では,K-meansクラスタリングアルゴリズムとマルチデメとマスタ/スレーブPGのハイブリッドPGを組み合わせた(K-means)階層並列遺伝的アルゴリズムアプローチ(HPGA)を提案する。
K-平均は、集団を k 個のサブポピュレーションにクラスタリングし、クエリに関連するほとんどのクラスタを2つのレベルの遺伝的並列性によって並列に操作することで、結果の質を改善する方法として、非関連文書はサブポピュレーションに含まれない。
3つの共通データセット(NLP、CISI、CACM)は、リコール、精度、F測定平均を計算するために使用される。
最後に、3つのデータセットの精度を遺伝的IRと古典IRと比較した。
IR-GAによるアプローチ精度の改善はCACMで45%,CISIで27%,NLPで25%であった。
一方、Classic-IRと比較すると、(k-means)-HPGAはCACMが47%、CISIが28%、NLPが34%であった。
関連論文リスト
- Interpretable label-free self-guided subspace clustering [0.0]
多数部分空間クラスタリング(SC)アルゴリズムは1つ以上のハイパーパラメータに依存しており、高いクラスタリング性能を達成するためにはSCアルゴリズムを慎重に調整する必要がある。
我々は,精度 (ACC) や正規化相互情報 (NMI) などのクラスタリング品質指標を用いたラベル非依存HPOの新しい手法を提案する。
本手法は,複数のシングルビューおよびマルチビューSCアルゴリズムを用いて,達成された性能を,桁,顔,オブジェクトを表す6つのデータセットで比較する。
論文 参考訳(メタデータ) (2024-11-26T10:29:09Z) - Accelerating spherical K-means clustering for large-scale sparse document data [0.7366405857677226]
本稿では,大規模かつ高次元のスパース文書データセットを対象とした球面K平均クラスタリングアルゴリズムを提案する。
提案手法は, 大規模文書において, 最先端技術を用いたアルゴリズムと比較して, 高速性能を効果的に達成できることを実験的に実証した。
論文 参考訳(メタデータ) (2024-11-18T05:50:58Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Performance evaluation results of evolutionary clustering algorithm star
for clustering heterogeneous datasets [15.154538450706474]
本稿では,進化的クラスタリングアルゴリズムstar(eca*)の性能評価のためのデータを提案する。
従来の5つのクラスタリングアルゴリズムに対するeca*の性能を調べるために、2つの実験手法が用いられた。
論文 参考訳(メタデータ) (2021-04-30T08:17:19Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。