論文の概要: Evaluating Distributional Distortion in Neural Language Modeling
- arxiv url: http://arxiv.org/abs/2203.12788v1
- Date: Thu, 24 Mar 2022 01:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:54:55.646068
- Title: Evaluating Distributional Distortion in Neural Language Modeling
- Title(参考訳): ニューラルネットワークモデリングにおける分布歪みの評価
- Authors: Benjamin LeBrun, Alessandro Sordoni, Timothy J. O'Donnell
- Abstract要約: 稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
- 参考スコア(独自算出の注目度): 81.83408583979745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental characteristic of natural language is the high rate at which
speakers produce novel expressions. Because of this novelty, a heavy-tail of
rare events accounts for a significant amount of the total probability mass of
distributions in language (Baayen, 2001). Standard language modeling metrics
such as perplexity quantify the performance of language models (LM) in
aggregate. As a result, we have relatively little understanding of whether
neural LMs accurately estimate the probability of sequences in this heavy-tail
of rare events. To address this gap, we develop a controlled evaluation scheme
which uses generative models trained on natural data as artificial languages
from which we can exactly compute sequence probabilities. Training LMs on
generations from these artificial languages, we compare the sequence-level
probability estimates given by LMs to the true probabilities in the target
language. Our experiments reveal that LSTM and Transformer language models (i)
systematically underestimate the probability of sequences drawn from the target
language, and (ii) do so more severely for less-probable sequences.
Investigating where this probability mass went, (iii) we find that LMs tend to
overestimate the probability of ill formed (perturbed) sequences. In addition,
we find that this underestimation behaviour (iv) is weakened, but not
eliminated by greater amounts of training data, and (v) is exacerbated for
target distributions with lower entropy.
- Abstract(参考訳): 自然言語の基本特性は、話者が新しい表現を生成する確率が高いことである。
この新奇性のため、希少な事象の重大さが、言語における分布の確率質量のかなりの量を占める(baayen, 2001)。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
その結果, ニューラルlmsがこの重大事象における配列の確率を正確に推定するかどうかは, 比較的理解されていない。
このギャップに対処するために,自然データから学習した生成モデルを人工言語として使用し,シーケンス確率を正確に計算する制御評価手法を開発した。
これらの人工言語から世代間のLMを訓練し、LMが与えるシーケンスレベルの確率推定とターゲット言語の真確率を比較する。
我々の実験によりLSTMとTransformer言語モデルが明らかになった
(i)対象言語から引き出されたシーケンスの確率を体系的に過小評価すること、
(ii)確率の低い配列では、より深刻な処理を行う。
この確率質量の行き先を調べる。
(3) LMは, 異常な配列(摂動配列)の確率を過大評価する傾向にある。
さらに、この過小評価行動は、
(iv) が弱まるが、大量の訓練データによって排除されず、
(v)は低エントロピーのターゲット分布に対して増悪される。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Out-of-Distribution Detection and Selective Generation for Conditional
Language Models [40.15896981028647]
条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練される。
CLMの高精度かつ軽量なOOD検出法を提案する。
提案手法は,高品質な出力を選択的に生成するために,分布シフトの一般的かつ現実的な設定の下でどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-09-30T16:17:11Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。