論文の概要: Method for Determining the Similarity of Text Documents for the Kazakh
language, Taking Into Account Synonyms: Extension to TF-IDF
- arxiv url: http://arxiv.org/abs/2211.12364v1
- Date: Tue, 22 Nov 2022 15:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:47:04.010061
- Title: Method for Determining the Similarity of Text Documents for the Kazakh
language, Taking Into Account Synonyms: Extension to TF-IDF
- Title(参考訳): カザフ語テキスト文書の類似性決定手法:TF-IDFの拡張
- Authors: Bakhyt Bakiyev
- Abstract要約: 文書の類似性を決定するタスクは,情報検索など多くの分野で注目されている。
周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。
この手法の有効性は、カザフ語におけるテキスト文書の類似性を測定するために、Cosine, Dice, Jaccardなどの関数の実験によって確認される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of determining the similarity of text documents has received
considerable attention in many areas such as Information Retrieval, Text
Mining, Natural Language Processing (NLP) and Computational Linguistics.
Transferring data to numeric vectors is a complex task where algorithms such as
tokenization, stopword filtering, stemming, and weighting of terms are used.
The term frequency - inverse document frequency (TF-IDF) is the most widely
used term weighting method to facilitate the search for relevant documents. To
improve the weighting of terms, a large number of TF-IDF extensions are made.
In this paper, another extension of the TF-IDF method is proposed where
synonyms are taken into account. The effectiveness of the method is confirmed
by experiments on functions such as Cosine, Dice and Jaccard to measure the
similarity of text documents for the Kazakh language.
- Abstract(参考訳): テキストの類似性を決定するタスクは,情報検索,テキストマイニング,自然言語処理(NLP),計算言語学など,多くの分野において注目されている。
数値ベクトルへのデータ転送は複雑なタスクであり、トークン化、ストップワードフィルタリング、スターティング、項重み付けなどのアルゴリズムが使用される。
周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。
項の重み付けを改善するため、TF-IDF拡張が多数作成されている。
本稿では,同義語を考慮したTF-IDF法の拡張を提案する。
本手法の有効性は,カザフ語用テキスト文書の類似度を測定するために,コサイン,ダイス,ジャカードなどの関数を用いた実験によって確認された。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Search with Subword TF-IDF [0.0]
サブワードTF-IDF(STF-IDF)は、そのようなことなしに高い精度を提供できる。
XQuAD評価は、STF-IDFの利点を実証している。
論文 参考訳(メタデータ) (2022-09-28T17:49:37Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。