論文の概要: You should evaluate your language model on marginal likelihood
overtokenisations
- arxiv url: http://arxiv.org/abs/2109.02550v1
- Date: Mon, 6 Sep 2021 15:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 19:39:58.514481
- Title: You should evaluate your language model on marginal likelihood
overtokenisations
- Title(参考訳): 限界可能性の過大評価で言語モデルを評価するべきだ
- Authors: Kris Cao and Laura Rimell
- Abstract要約: 言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
- 参考スコア(独自算出の注目度): 5.824498637088864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models typically tokenise input text into sub-word units to
achieve an open vocabulary. The standard approach is to use a single canonical
tokenisation at both train and test time. We suggest that this approach is
unsatisfactory and may bottleneck our evaluation of language model performance.
Using only the one-best tokenisation ignores tokeniser uncertainty over
alternative tokenisations, which may hurt model out-of-domain performance.
In this paper, we argue that instead, language models should be evaluated on
their marginal likelihood over tokenisations. We compare different estimators
for the marginal likelihood based on sampling, and show that it is feasible to
estimate the marginal likelihood with a manageable number of samples. We then
evaluate pretrained English and German language models on both the
one-best-tokenisation and marginal perplexities, and show that the marginal
perplexity can be significantly better than the one best, especially on
out-of-domain data. We link this difference in perplexity to the tokeniser
uncertainty as measured by tokeniser entropy. We discuss some implications of
our results for language model training and evaluation, particularly with
regard to tokenisation robustness.
- Abstract(参考訳): ニューラルネットワークモデルは通常、入力テキストをサブワード単位にトークン化し、オープンな語彙を達成する。
標準的なアプローチは、列車とテストの両方で単一の標準トークンを使用することである。
このアプローチは不満足であり,言語モデルの性能評価のボトルネックとなる可能性がある。
唯一のベストトークン化だけを使用することで、代替トークン化に対するトークンの不確実性を無視する。
本稿では,言語モデルがトークン化よりも限界的な可能性に基づいて評価されるべきである,と論じる。
サンプルの残差確率を比較検討した結果, 限界確率を管理可能なサンプル数で推定することが可能であることが示唆された。
次に, 事前学習した英語とドイツ語のモデルについて, 最良知識と限界パープレキシティの両方で評価し, 特にドメイン外データにおいて, 限界パープレキシティが最良であることを示す。
この差分をトークンサエントロピーによって測定されたトークンサの不確実性と関連付ける。
本稿では,言語モデルの学習と評価,特にトークン化の堅牢性に関する結果の意義について考察する。
関連論文リスト
- Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Assessing Keyness using Permutation Tests [0.0]
トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
論文 参考訳(メタデータ) (2023-08-25T13:52:57Z) - Should you marginalize over possible tokenizations? [13.07994518230055]
ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。
その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T16:09:01Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。