論文の概要: Method for Determining the Similarity of Text Documents for the Kazakh
language, Taking Into Account Synonyms: Extension to TF-IDF
- arxiv url: http://arxiv.org/abs/2211.12364v1
- Date: Tue, 22 Nov 2022 15:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:47:04.010061
- Title: Method for Determining the Similarity of Text Documents for the Kazakh
language, Taking Into Account Synonyms: Extension to TF-IDF
- Title(参考訳): カザフ語テキスト文書の類似性決定手法:TF-IDFの拡張
- Authors: Bakhyt Bakiyev
- Abstract要約: 文書の類似性を決定するタスクは,情報検索など多くの分野で注目されている。
周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。
この手法の有効性は、カザフ語におけるテキスト文書の類似性を測定するために、Cosine, Dice, Jaccardなどの関数の実験によって確認される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of determining the similarity of text documents has received
considerable attention in many areas such as Information Retrieval, Text
Mining, Natural Language Processing (NLP) and Computational Linguistics.
Transferring data to numeric vectors is a complex task where algorithms such as
tokenization, stopword filtering, stemming, and weighting of terms are used.
The term frequency - inverse document frequency (TF-IDF) is the most widely
used term weighting method to facilitate the search for relevant documents. To
improve the weighting of terms, a large number of TF-IDF extensions are made.
In this paper, another extension of the TF-IDF method is proposed where
synonyms are taken into account. The effectiveness of the method is confirmed
by experiments on functions such as Cosine, Dice and Jaccard to measure the
similarity of text documents for the Kazakh language.
- Abstract(参考訳): テキストの類似性を決定するタスクは,情報検索,テキストマイニング,自然言語処理(NLP),計算言語学など,多くの分野において注目されている。
数値ベクトルへのデータ転送は複雑なタスクであり、トークン化、ストップワードフィルタリング、スターティング、項重み付けなどのアルゴリズムが使用される。
周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。
項の重み付けを改善するため、TF-IDF拡張が多数作成されている。
本稿では,同義語を考慮したTF-IDF法の拡張を提案する。
本手法の有効性は,カザフ語用テキスト文書の類似度を測定するために,コサイン,ダイス,ジャカードなどの関数を用いた実験によって確認された。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Search with Subword TF-IDF [0.0]
サブワードTF-IDF(STF-IDF)は、そのようなことなしに高い精度を提供できる。
XQuAD評価は、STF-IDFの利点を実証している。
論文 参考訳(メタデータ) (2022-09-28T17:49:37Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。