論文の概要: Testing different Log Bases For Vector Model Weighting Technique
- arxiv url: http://arxiv.org/abs/2307.06213v1
- Date: Wed, 12 Jul 2023 15:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 12:41:15.245610
- Title: Testing different Log Bases For Vector Model Weighting Technique
- Title(参考訳): ベクトルモデル重み付けのための異なるログベースをテストする
- Authors: Kamel Assaf
- Abstract要約: 情報検索システムは、ユーザが提出したクエリに基づいて関連文書を検索する。
TFは、文書内の項の発生数を表す。
IDFはすべての文書でこの用語が一般的か稀かを測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval systems retrieves relevant documents based on a query
submitted by the user. The documents are initially indexed and the words in the
documents are assigned weights using a weighting technique called TFIDF which
is the product of Term Frequency (TF) and Inverse Document Frequency (IDF). TF
represents the number of occurrences of a term in a document. IDF measures
whether the term is common or rare across all documents. It is computed by
dividing the total number of documents in the system by the number of documents
containing the term and then computing the logarithm of the quotient. By
default, we use base 10 to calculate the logarithm. In this paper, we are going
to test this weighting technique by using a range of log bases from 0.1 to
100.0 to calculate the IDF. Testing different log bases for vector model
weighting technique is to highlight the importance of understanding the
performance of the system at different weighting values. We use the documents
of MED, CRAN, NPL, LISA, and CISI test collections that scientists assembled
explicitly for experiments in data information retrieval systems.
- Abstract(参考訳): 情報検索システムは、ユーザが提出したクエリに基づいて関連文書を検索する。
文書はまずインデックス化され、文書中の単語は、TF(Term Frequency)とIDF(Inverse Document Frequency)の産物であるTFIDFと呼ばれる重み付け技術を用いて重み付けされる。
TFは、文書内の項の発生数を表す。
IDFはすべての文書でこの用語が一般的か稀かを測定する。
用語を含む文書数でシステム内の文書の総数を分割し、その商の対数を計算することで計算する。
デフォルトでは、ベース10を使って対数を計算する。
本稿では,この重み付け手法を,0.1から100.0までのログベースを用いて,idfの計算を行う。
ベクトルモデル重み付け手法のために異なるログベースをテストすることは、異なる重み付け値でシステムの性能を理解することの重要性を強調します。
我々は,MED,CRAN,NPL,LISA,CISIテストコレクションの文書を用いて,科学者がデータ情報検索システムの実験のために明示的に組み立てた。
関連論文リスト
- Document Type Classification using File Names [7.130525292849283]
迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。
重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットよりも高い推論時間のために不足している。
本稿では、TF-IDF特徴抽出に基づくトークン化手法と組み合わせ、軽量教師付き学習モデルを用いた手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T01:42:19Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - CQE: A Comprehensive Quantity Extractor [2.2079886535603084]
テキストデータから包括的量抽出フレームワークを提案する。
値と単位の組み合わせ、量の振る舞い、量と関連する概念を効率的に検出する。
本フレームワークは, 依存解析と単位辞書を利用して, 検出された量の適切な正規化と標準化を実現する。
論文 参考訳(メタデータ) (2023-05-15T17:59:41Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - Differentiable Reasoning over a Virtual Knowledge Base [156.94984221342716]
コーパスを仮想知識ベース(KB)として,複雑なマルチホップ質問に答えるタスクについて検討する。
特に、コーパス内のエンティティの参照間の関係の経路をソフトに追従し、KBのようにテキストデータをトラバースするDrKITについて述べる。
DrKITは非常に効率的で、既存のマルチホップシステムよりも毎秒10-100倍のクエリを処理する。
論文 参考訳(メタデータ) (2020-02-25T03:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。