論文の概要: Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities
- arxiv url: http://arxiv.org/abs/2406.10851v2
- Date: Mon, 30 Sep 2024 01:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:20.749107
- Title: Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities
- Title(参考訳): 単語確率の計算に用いた単語語彙の先行する白色空間
- Authors: Byung-Doh Oh, William Schuler,
- Abstract要約: 我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
- 参考スコア(独自算出の注目度): 15.073507986272027
- License:
- Abstract: Predictions of word-by-word conditional probabilities from Transformer-based language models are often evaluated to model the incremental processing difficulty of human readers. In this paper, we argue that there is a confound posed by the most common method of aggregating subword probabilities of such language models into word probabilities. This is due to the fact that tokens in the subword vocabulary of most language models have leading whitespaces and therefore do not naturally define stop probabilities of words. We first prove that this can result in distributions over word probabilities that sum to more than one, thereby violating the axiom that $\mathsf{P}(\Omega) = 1$. This property results in a misallocation of word-by-word surprisal, where the unacceptability of the end of the current word is incorrectly carried over to the next word. Additionally, this implicit prediction of word boundaries incorrectly models psycholinguistic experiments where human subjects directly observe upcoming word boundaries. We present a simple decoding technique to reaccount the probability of the trailing whitespace into that of the current word, which resolves this confound. Experiments show that this correction reveals lower estimates of garden-path effects in transitive/intransitive sentences and poorer fits to naturalistic reading times.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルからの単語ごとの条件付き確率の予測は、人間読者の漸進的な処理困難をモデル化するためにしばしば評価される。
本稿では,そのような言語モデルのサブワード確率を単語確率に集約する最も一般的な手法によって生じる欠点について論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主白空間を持ち、したがって自然に単語の確率を定義できないという事実による。
まず、これが1つ以上の単語確率上の分布をもたらすことを証明し、従って$\mathsf{P}(\Omega) = 1$という公理に違反する。
この特性は、単語ごとの副詞の誤りを生じさせ、現在の単語の終端の認識不能が誤って次の単語に受け継がれる。
さらに、この単語境界の暗黙的な予測は、人間が次の単語境界を直接観察する精神言語実験を誤ってモデル化する。
本稿では,後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
実験により, この修正は, 過渡的/過渡的文における庭道効果の低下と, 自然主義的読解時間に適合しないことを示す。
関連論文リスト
- How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:42Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Modeling the Unigram Distribution [39.153612297712655]
ユニグラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。
我々はそれを言語で推定するための新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-06-04T07:02:49Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic
Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。
BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。
フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文 参考訳(メタデータ) (2020-10-06T20:30:59Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。