論文の概要: You should evaluate your language model on marginal likelihood
overtokenisations
- arxiv url: http://arxiv.org/abs/2109.02550v1
- Date: Mon, 6 Sep 2021 15:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 19:39:58.514481
- Title: You should evaluate your language model on marginal likelihood
overtokenisations
- Title(参考訳): 限界可能性の過大評価で言語モデルを評価するべきだ
- Authors: Kris Cao and Laura Rimell
- Abstract要約: 言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
- 参考スコア(独自算出の注目度): 5.824498637088864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models typically tokenise input text into sub-word units to
achieve an open vocabulary. The standard approach is to use a single canonical
tokenisation at both train and test time. We suggest that this approach is
unsatisfactory and may bottleneck our evaluation of language model performance.
Using only the one-best tokenisation ignores tokeniser uncertainty over
alternative tokenisations, which may hurt model out-of-domain performance.
In this paper, we argue that instead, language models should be evaluated on
their marginal likelihood over tokenisations. We compare different estimators
for the marginal likelihood based on sampling, and show that it is feasible to
estimate the marginal likelihood with a manageable number of samples. We then
evaluate pretrained English and German language models on both the
one-best-tokenisation and marginal perplexities, and show that the marginal
perplexity can be significantly better than the one best, especially on
out-of-domain data. We link this difference in perplexity to the tokeniser
uncertainty as measured by tokeniser entropy. We discuss some implications of
our results for language model training and evaluation, particularly with
regard to tokenisation robustness.
- Abstract(参考訳): ニューラルネットワークモデルは通常、入力テキストをサブワード単位にトークン化し、オープンな語彙を達成する。
標準的なアプローチは、列車とテストの両方で単一の標準トークンを使用することである。
このアプローチは不満足であり,言語モデルの性能評価のボトルネックとなる可能性がある。
唯一のベストトークン化だけを使用することで、代替トークン化に対するトークンの不確実性を無視する。
本稿では,言語モデルがトークン化よりも限界的な可能性に基づいて評価されるべきである,と論じる。
サンプルの残差確率を比較検討した結果, 限界確率を管理可能なサンプル数で推定することが可能であることが示唆された。
次に, 事前学習した英語とドイツ語のモデルについて, 最良知識と限界パープレキシティの両方で評価し, 特にドメイン外データにおいて, 限界パープレキシティが最良であることを示す。
この差分をトークンサエントロピーによって測定されたトークンサの不確実性と関連付ける。
本稿では,言語モデルの学習と評価,特にトークン化の堅牢性に関する結果の意義について考察する。
関連論文リスト
- Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Assessing Keyness using Permutation Tests [0.0]
トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
論文 参考訳(メタデータ) (2023-08-25T13:52:57Z) - Should you marginalize over possible tokenizations? [13.07994518230055]
ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。
その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T16:09:01Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Token Drop mechanism for Neural Machine Translation [12.666468105300002]
NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。
単語ドロップアウトと同様に、ドロップトークンを単語に0をセットするのではなく、特別なトークンに置き換える。
論文 参考訳(メタデータ) (2020-10-21T14:02:27Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。