論文の概要: Leading Whitespaces of Language Models' Subword Vocabulary Poses a Confound for Calculating Word Probabilities
- arxiv url: http://arxiv.org/abs/2406.10851v1
- Date: Sun, 16 Jun 2024 08:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:31:44.382910
- Title: Leading Whitespaces of Language Models' Subword Vocabulary Poses a Confound for Calculating Word Probabilities
- Title(参考訳): 単語確率の計算における単語語彙の先行する空白空間
- Authors: Byung-Doh Oh, William Schuler,
- Abstract要約: 我々は、言語モデルのサブワードトークン化スキームによって生じる欠点を論じる。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
- 参考スコア(独自算出の注目度): 15.073507986272027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word-by-word conditional probabilities from Transformer-based language models are increasingly being used to evaluate their predictions over minimal pairs or to model the incremental processing difficulty of human readers. In this paper, we argue that there is a confound posed by the subword tokenization scheme of such language models, which has gone unaddressed thus far. This is due to the fact that tokens in the subword vocabulary of most language models have leading whitespaces and therefore do not naturally define stop probabilities of words. We first prove that this can result in word probabilities that sum to more than one, thereby violating the axiom that $\mathsf{P}(\Omega) = 1$. This property results in a misallocation of word-by-word surprisal, where the unacceptability of the current 'end of word' is incorrectly carried over to the next word. Additionally, language models' such implicit prediction of word boundaries is incongruous with psycholinguistic experiments where human subjects directly observe upcoming word boundaries. We present a simple decoding technique to reaccount the probability of the trailing whitespace into that of the current word, which resolves this confound. As a case study, we show that this results in significantly different estimates of garden-path effects in transitive/intransitive sentences, where a comma is strongly expected before the critical word.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルからの単語・バイ・ワードの条件付き確率は、最小ペア以上の予測評価や、人間読者の漸進的な処理困難をモデル化するために、ますます使われてきている。
本稿では,このような言語モデルのサブワードトークン化スキームには,これまで未解決であった欠点が存在することを論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主白空間を持ち、したがって自然に単語の確率を定義できないという事実による。
まず、このことが1つ以上の単語確率をもたらすことを証明し、従って$\mathsf{P}(\Omega) = 1$という公理に違反する。
この特性は、単語ごとの副詞の誤用を招き、現在の「語末」の誤認が次の単語に誤って受け継がれる。
さらに、言語モデルのそのような単語境界の暗黙的な予測は、人間の被験者が今後の単語境界を直接観察する精神言語実験と矛盾する。
本稿では,後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
ケーススタディでは,コンマが臨界語の前に強く期待される過渡的/非横断的文において,園芸パスの効果が著しく異なることが示唆された。
関連論文リスト
- How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:42Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Modeling the Unigram Distribution [39.153612297712655]
ユニグラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。
我々はそれを言語で推定するための新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-06-04T07:02:49Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic
Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。
BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。
フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文 参考訳(メタデータ) (2020-10-06T20:30:59Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。