論文の概要: A Comparison of Document Similarity Algorithms
- arxiv url: http://arxiv.org/abs/2304.01330v1
- Date: Mon, 3 Apr 2023 19:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 16:26:06.874807
- Title: A Comparison of Document Similarity Algorithms
- Title(参考訳): 文書類似性アルゴリズムの比較
- Authors: Nicholas Gahman and Vinayak Elangovan
- Abstract要約: 文書類似性アルゴリズムを3種類の文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、一連のベンチマークデータセットと評価を用いて、我々の研究で比較されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document similarity is an important part of Natural Language Processing and
is most commonly used for plagiarism-detection and text summarization. Thus,
finding the overall most effective document similarity algorithm could have a
major positive impact on the field of Natural Language Processing. This report
sets out to examine the numerous document similarity algorithms, and determine
which ones are the most useful. It addresses the most effective document
similarity algorithm by categorizing them into 3 types of document similarity
algorithms: statistical algorithms, neural networks, and corpus/knowledge-based
algorithms. The most effective algorithms in each category are also compared in
our work using a series of benchmark datasets and evaluations that test every
possible area that each algorithm could be used in.
- Abstract(参考訳): 文書類似性は自然言語処理の重要な部分であり、最も一般的には盗作検出やテキスト要約に使われる。
したがって、最も効果的な文書類似性アルゴリズムを見つけることは、自然言語処理の分野に大きな影響を与える可能性がある。
本報告では,多数の文書類似性アルゴリズムについて検討し,どれが最も有用かを決定する。
統計アルゴリズム、ニューラルネットワーク、コーパス/知識ベースのアルゴリズムの3つのタイプの文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、各アルゴリズムが利用できるあらゆる可能な領域をテストする一連のベンチマークデータセットと評価を使用して、我々の研究で比較されます。
関連論文リスト
- Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Computational thematics: Comparing algorithms for clustering the genres
of literary fiction [0.0]
本稿では,テキスト間のセマンティックな類似点を教師なし学習するアルゴリズムについて比較する。
アルゴリズムの組み合わせには、事前にタグ付けされた4つのジャンルに属する本のコーパスをまとめるタスクが与えられる。
このクラスタリングは、"グラウンド・真理"ジャンルのラベルに対して検証される。
論文 参考訳(メタデータ) (2023-05-18T18:32:03Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - Algorithm Selection on a Meta Level [58.720142291102135]
本稿では,与えられたアルゴリズムセレクタの組み合わせに最適な方法を求めるメタアルゴリズム選択の問題を紹介する。
本稿では,メタアルゴリズム選択のための一般的な方法論フレームワークと,このフレームワークのインスタンス化として具体的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-20T11:23:21Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。