論文の概要: Efficient Clustering from Distributions over Topics
- arxiv url: http://arxiv.org/abs/2012.08206v1
- Date: Tue, 15 Dec 2020 10:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 06:33:11.189064
- Title: Efficient Clustering from Distributions over Topics
- Title(参考訳): トピック上の分布からの効率的なクラスタリング
- Authors: Carlos Badenes-Olmedo, Jose-Luis Redondo Garc\'ia, Oscar Corcho
- Abstract要約: 本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many scenarios where we may want to find pairs of textually similar
documents in a large corpus (e.g. a researcher doing literature review, or an
R&D project manager analyzing project proposals). To programmatically discover
those connections can help experts to achieve those goals, but brute-force
pairwise comparisons are not computationally adequate when the size of the
document corpus is too large. Some algorithms in the literature divide the
search space into regions containing potentially similar documents, which are
later processed separately from the rest in order to reduce the number of pairs
compared. However, this kind of unsupervised methods still incur in high
temporal costs. In this paper, we present an approach that relies on the
results of a topic modeling algorithm over the documents in a collection, as a
means to identify smaller subsets of documents where the similarity function
can then be computed. This approach has proved to obtain promising results when
identifying similar documents in the domain of scientific publications. We have
compared our approach against state of the art clustering techniques and with
different configurations for the topic modeling algorithm. Results suggest that
our approach outperforms (> 0.5) the other analyzed techniques in terms of
efficiency.
- Abstract(参考訳): テキストに類似した文書のペアを大きなコーパス(例)で見つけたい、というシナリオはたくさんあります。
文献レビューを行う研究者、またはプロジェクト提案を分析するR&Dプロジェクトマネージャ。
これらの接続をプログラム的に発見することは、専門家がこれらの目標を達成するのに役立つが、ドキュメントコーパスのサイズが大きすぎると、ブルートフォースのペアワイズ比較は計算に適さない。
文献のいくつかのアルゴリズムは、検索空間を潜在的に類似した文書を含む領域に分割し、後に比較したペアの数を減らすために他の部分から別々に処理する。
しかし、このような教師なしの手法は依然として時間的コストが高い。
本稿では、類似度関数を計算可能な文書のより小さなサブセットを識別する手段として、コレクション内の文書に対するトピックモデリングアルゴリズムの結果に依存する手法を提案する。
このアプローチは、科学出版分野における類似文書を特定する際に有望な結果が得られることが証明されている。
我々は,最先端のクラスタリング技術に対する我々のアプローチと,トピックモデリングアルゴリズムの異なる構成との比較を行った。
その結果,本手法は,他の解析手法よりも効率がよい(>0.5)ことが示唆された。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text [28.36260646471421]
低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。
合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
論文 参考訳(メタデータ) (2023-07-28T05:43:39Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Contextualization for the Organization of Text Documents Streams [0.0]
テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。
テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
論文 参考訳(メタデータ) (2022-05-30T22:25:40Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文 参考訳(メタデータ) (2020-12-08T04:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。