論文の概要: Common TF-IDF variants arise as key components in the test statistic of a penalized likelihood-ratio test for word burstiness
- arxiv url: http://arxiv.org/abs/2604.00672v2
- Date: Sun, 05 Apr 2026 09:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 12:54:54.56324
- Title: Common TF-IDF variants arise as key components in the test statistic of a penalized likelihood-ratio test for word burstiness
- Title(参考訳): 一般TF-IDF変種は、単語バーストネスに対するペナル化確率比テストの試験統計における重要な要素として現れる
- Authors: Zeyad Ahmed, Paul Sheridan, Michael McIsaac, Aitazaz A. Farooque,
- Abstract要約: TF-IDFライクなスコアは, 単語のバーストネスを捉えたペナル化確率比検定の検定統計から自然に生じることを示す。
このテスト統計により得られた項重み付けスキームは、文書分類タスクにおいてTF-IDFと同等に動作することがわかった。
- 参考スコア(独自算出の注目度): 1.9349283460893496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TF-IDF is a classical formula that is widely used for identifying important terms within documents. We show that TF-IDF-like scores arise naturally from the test statistic of a penalized likelihood-ratio test setup capturing word burstiness (also known as word over-dispersion). In our framework, the alternative hypothesis captures word burstiness by modeling a collection of documents according to a family of beta-binomial distributions with a gamma penalty term on the precision parameter. In contrast, the null hypothesis assumes that words are binomially distributed in collection documents, a modeling approach that fails to account for word burstiness. We find that a term-weighting scheme given rise to by this test statistic performs comparably to TF-IDF on document classification tasks. This paper provides insights into TF-IDF from a statistical perspective and underscores the potential of hypothesis testing frameworks for advancing term-weighting scheme development.
- Abstract(参考訳): TF-IDFは古典的な公式であり、文書内の重要な用語を特定するために広く使われている。
TF-IDFライクなスコアは,単語のバースト性(単語過分散)を捉えるペナルティ化された確率比検定の検定統計から自然に生じることを示す。
本フレームワークでは, 精度パラメータにガンマペナル項を付与したβ-二項分布の族に従って文書の集合をモデル化することにより, 単語のバーストネスを推定する。
対照的に、ヌル仮説は、単語が二項的に収集文書に分散されていると仮定する。
このテスト統計により得られた項重み付けスキームは、文書分類タスクにおいてTF-IDFと同等に動作することがわかった。
本稿では,TF-IDFの統計的観点からの知見を提供し,期間重み付け手法開発に向けた仮説テストフレームワークの可能性を明らかにする。
関連論文リスト
- A Fisher's exact test justification of the TF-IDF term-weighting scheme [0.0]
TF-IDF (Term frequency-inverse document frequency) は、情報検索史上最も有名な数学的表現である。
本稿では,TF-IDFを統計的コミュニティに活用することを正当化し,評価された表現が重要テストの観点からどのように理解できるかを実証する。
論文 参考訳(メタデータ) (2025-07-21T15:54:23Z) - The Consistency Hypothesis in Uncertainty Quantification for Large Language Models [22.60039074743706]
モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。
本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定について検討する。
信頼度推定のための世代間類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
論文 参考訳(メタデータ) (2025-06-27T01:53:15Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Exact Distribution-Free Hypothesis Tests for the Regression Function of
Binary Classification via Conditional Kernel Mean Embeddings [0.0]
条件付きカーネル平均埋め込みに基づく二項分類の回帰関数に対する2つの仮説試験を提案する。
テストは柔軟な方法で導入され、タイプiのエラーの正確な確率を制御できます。
論文 参考訳(メタデータ) (2021-03-08T22:31:23Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - On the Replicability of Combining Word Embeddings and Retrieval Models [71.18271398274513]
我々は、Fisherカーネルフレームワークの使用に関する魅力的な仮説を実証しようとする最近の実験を再現する。
具体的には、von Mises-Fisher (VMF) 分布の混合モデルを使用することは、VMF とベクトル空間モデルの両方の余弦距離に焦点をあてることによって有益である。
論文 参考訳(メタデータ) (2020-01-13T19:01:07Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。