論文の概要: A Fisher's exact test justification of the TF-IDF term-weighting scheme
- arxiv url: http://arxiv.org/abs/2507.15742v2
- Date: Thu, 24 Jul 2025 19:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.200516
- Title: A Fisher's exact test justification of the TF-IDF term-weighting scheme
- Title(参考訳): TF-IDF項重み付け方式のフィッシャー検定
- Authors: Paul Sheridan, Zeyad Ahmed, Aitazaz A. Farooque,
- Abstract要約: TF-IDF (Term frequency-inverse document frequency) は、情報検索史上最も有名な数学的表現である。
本稿では,TF-IDFを統計的コミュニティに活用することを正当化し,評価された表現が重要テストの観点からどのように理解できるかを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Term frequency-inverse document frequency, or TF-IDF for short, is arguably the most celebrated mathematical expression in the history of information retrieval. Conceived as a simple heuristic quantifying the extent to which a given term's occurrences are concentrated in any one given document out of many, TF-IDF and its many variants are routinely used as term-weighting schemes in diverse text analysis applications. There is a growing body of scholarship dedicated to placing TF-IDF on a sound theoretical foundation. Building on that tradition, this paper justifies the use of TF-IDF to the statistics community by demonstrating how the famed expression can be understood from a significance testing perspective. We show that the common TF-IDF variant TF-ICF is, under mild regularity conditions, closely related to the negative logarithm of the $p$-value from a one-tailed version of Fisher's exact test of statistical significance. As a corollary, we establish a connection between TF-IDF and the said negative log-transformed $p$-value under certain idealized assumptions. We further demonstrate, as a limiting case, that this same quantity converges to TF-IDF in the limit of an infinitely large document collection. The Fisher's exact test justification of TF-IDF equips the working statistician with a ready explanation of the term-weighting scheme's long-established effectiveness.
- Abstract(参考訳): TF-IDF(TF-IDF)は、情報検索史上最も著名な数学的表現である。
TF-IDFとその多くの変種は、様々なテキスト分析アプリケーションにおいて、項重み付けスキームとして日常的に使用される。
TF-IDFを健全な理論の基礎に置くための奨学金の団体が増えている。
そこで本論文は,TF-IDFを統計的コミュニティに活用することを正当化し,その意義テストの観点から,その表現がいかに理解できるかを実証する。
TF-IDF 変種 TF-ICF は、穏やかな規則性条件下では、フィッシャーの統計的意義の正確な検定の1尾版の$p$-値の負の対数と密接に関連していることが示される。
結論として、TF-IDFと上記の負の対数変換された$p$-値との接続を、ある理想化された仮定の下で確立する。
さらに、制限の場合として、この同じ量が無限大の文書コレクションの極限においてTF-IDFに収束することが示される。
フィッシャーによるTF-IDFの正確な検定正当性は、この項重み付けスキームの長年の有効性について、作業統計学者に説明を提供する。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Flow matching achieves almost minimax optimal convergence [50.38891696297888]
フローマッチング (FM) は, シミュレーションのない生成モデルとして注目されている。
本稿では,大試料径のFMの収束特性を$p$-Wasserstein 距離で論じる。
我々は、FMが1leq p leq 2$でほぼ最小の収束率を達成できることを確立し、FMが拡散モデルに匹敵する収束率に達するという最初の理論的証拠を示す。
論文 参考訳(メタデータ) (2024-05-31T14:54:51Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - Method for Determining the Similarity of Text Documents for the Kazakh
language, Taking Into Account Synonyms: Extension to TF-IDF [0.0]
文書の類似性を決定するタスクは,情報検索など多くの分野で注目されている。
周波数-逆文書周波数(TF-IDF)は、関連文書の検索を容易にするために最も広く使われている用語重み付け法である。
この手法の有効性は、カザフ語におけるテキスト文書の類似性を測定するために、Cosine, Dice, Jaccardなどの関数の実験によって確認される。
論文 参考訳(メタデータ) (2022-11-22T15:54:41Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z) - TF-IDFC-RF: A Novel Supervised Term Weighting Scheme [0.0]
感性分析は、テキストサンプルで表現された態度を分類するために、いくつかの文脈で適用することができる。
最も一般的な用語重み付け方式はTF-IDF (Term Frequency - Inverse Document Frequency)である。
本研究は、異なる項重み付け方式の比較研究を行い、TF-IDFC-RFと呼ばれる新しい教師付き項重み付け方式を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:31:46Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。