論文の概要: Non-Zipfian Distribution of Stopwords and Subset Selection Models
- arxiv url: http://arxiv.org/abs/2603.04691v1
- Date: Thu, 05 Mar 2026 00:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.011866
- Title: Non-Zipfian Distribution of Stopwords and Subset Selection Models
- Title(参考訳): ストップワードとサブセット選択モデルの非ジップフィアン分布
- Authors: Wentian Li, Oscar Fontanelli,
- Abstract要約: ストップワード(英語: Stopword)とは、言語テキストの内容や意味にあまり意味のない単語である。
すべての単語のランク頻度プロットに関するよく知られたZipfの法則とは対照的に、ストップワードのランク頻度プロットはベータランク関数によって最も適している。
我々は,このモデルが,本来の全単語リストがZipfの法則に従うと,停止語に対するBRFランク周波数分布につながることを解析的に示す。
- 参考スコア(独自算出の注目度): 0.15469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stopwords are words that are not very informative to the content or the meaning of a language text. Most stopwords are function words but can also be common verbs, adjectives and adverbs. In contrast to the well known Zipf's law for rank-frequency plot for all words, the rank-frequency plot for stopwords are best fitted by the Beta Rank Function (BRF). On the other hand, the rank-frequency plots of non-stopwords also deviate from the Zipf's law, but are fitted better by a quadratic function of log-token-count over log-rank than by BRF. Based on the observed rank of stopwords in the full word list, we propose a stopword (subset) selection model that the probability for being selected as a function of the word's rank $r$ is a decreasing Hill's function ($1/(1+(r/r_{mid})^γ)$); whereas the probability for not being selected is the standard Hill's function ( $1/(1+(r_{mid}/r)^γ)$). We validate this selection probability model by a direct estimation from an independent collection of texts. We also show analytically that this model leads to a BRF rank-frequency distribution for stopwords when the original full word list follows the Zipf's law, as well as explaining the quadratic fitting function for the non-stopwords.
- Abstract(参考訳): ストップワード(英語: Stopword)は、言語テキストの内容や意味にあまり意味のない単語である。
ほとんどのストップワードは関数語であるが、一般的な動詞、形容詞、副詞でもある。
すべての単語のランク周波数プロットに関するよく知られたZipfの法則とは対照的に、ストップワードのランク周波数プロットはベータランク関数(BRF)によって最も適している。
一方、非ストップワードのランク周波数プロットはZipfの法則から逸脱するが、対数ランク上の対数カウントの二次関数により、BRFよりもよく適合する。
単語リスト中の停止語ランクに基づいて、単語ランクの関数として選択される確率$r$はヒル関数(1/(1+(r/r_{mid})^γ)$)であり、選択されない確率はヒル関数(1/(1+(r_{mid}/r)^γ)$)である。
この選択確率モデルを,独立したテキスト集合から直接推定することで検証する。
また、このモデルが、本来の全単語リストがZipfの法則に従う場合に、停止語に対するBRFランク周波数分布につながること、および非停止語に対する2次適合関数を説明することを解析的に示す。
関連論文リスト
- Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering [0.0]
言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。
本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
論文 参考訳(メタデータ) (2025-11-26T04:59:40Z) - SLoW: Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models [47.604473591750605]
本稿ではtextbfAutomatic textbfDictionary textbfSelection (textbfADS) と呼ばれる新しいタスクを提案する。
タスクの目標は、翻訳を強化するために使用する辞書を自動的に選択することである。
論文 参考訳(メタデータ) (2025-07-25T02:51:14Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - End-to-End Open Vocabulary Keyword Search [13.90172596423425]
本稿では,キーワード検索に最適化されたモデルを提案する。
提案モデルでは, 正と負の試行比率が人工的に均衡するタスクにおいて, 同様のエンド・ツー・エンドモデルより優れる。
LVCSRをベースとしたキーワード検索システムでは,出力の再スコア付けに本システムを用いることで,大幅な改善が期待できる。
論文 参考訳(メタデータ) (2021-08-23T18:34:53Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。