論文の概要: Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles
- arxiv url: http://arxiv.org/abs/2410.09303v1
- Date: Fri, 11 Oct 2024 23:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:13:33.275901
- Title: Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles
- Title(参考訳): FIMタスクとモデルアンサンブルのためのトークン型言語モデルからのバイトレベル特異性
- Authors: Buu Phan, Brandon Amos, Itai Gat, Marton Havasi, Matthew Muckley, Karen Ullrich,
- Abstract要約: トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 23.134664392314264
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tokenization is associated with many poorly understood shortcomings in language models (LMs), yet remains an important component for long sequence scaling purposes. This work studies how tokenization impacts model performance by analyzing and comparing the stochastic behavior of tokenized models with their byte-level, or token-free, counterparts. We discover that, even when the two models are statistically equivalent, their predictive distributions over the next byte can be substantially different, a phenomenon we term as "tokenization bias''. To fully characterize this phenomenon, we introduce the Byte-Token Representation Lemma, a framework that establishes a mapping between the learned token distribution and its equivalent byte-level distribution. From this result, we develop a next-byte sampling algorithm that eliminates tokenization bias without requiring further training or optimization. In other words, this enables zero-shot conversion of tokenized LMs into statistically equivalent token-free ones. We demonstrate its broad applicability with two use cases: fill-in-the-middle (FIM) tasks and model ensembles. In FIM tasks where input prompts may terminate mid-token, leading to out-of-distribution tokenization, our method mitigates performance degradation and achieves an approximately 18% improvement in FIM coding benchmarks, consistently outperforming the standard token healing fix. For model ensembles where each model employs a distinct vocabulary, our approach enables seamless integration, resulting in improved performance (up to 3.7%) over individual models across various standard baselines in reasoning, knowledge, and coding.
- Abstract(参考訳): トークン化は言語モデル(LM)の多くの未理解の欠点と関連付けられているが、長いシーケンススケーリングの目的において重要な要素である。
本研究は,トークン化モデルの確率的挙動を,そのバイトレベル,あるいはトークンフリーなモデルと比較することにより,トークン化がモデル性能に与える影響について検討する。
2つのモデルが統計的に等価である場合でも、次のバイト上の予測分布は実質的に異なることが判明し、これは「トークン化バイアス」と呼ばれる現象である。
この現象を完全に特徴づけるために,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを導入する。
この結果から,さらなるトレーニングや最適化を必要とせず,トークン化バイアスを排除した次世代サンプリングアルゴリズムを開発した。
言い換えれば、これはトークン化されたLMを統計的に等価なトークンのないものにゼロショット変換することができる。
本稿では、FIMタスクとモデルアンサンブルの2つのユースケースで、その幅広い適用性を実証する。
入力プロンプトが途中で終了し,配布外トークン化につながるようなFIMタスクにおいて,本手法は性能劣化を軽減し,FIM符号化ベンチマークの約18%の改善を実現し,標準トークンのヒーリング修正を一貫して上回っている。
それぞれのモデルが異なる語彙を使用するモデルアンサンブルに対して、私たちのアプローチはシームレスな統合を可能にし、推論、知識、コーディングにおいて、さまざまな標準ベースラインにわたる個々のモデルのパフォーマンス(最大3.7%)を改善します。
関連論文リスト
- Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling [0.0]
本稿では,適応型ニューラルトケニズAtionのモジュールであるMANTaを提案する。
ManTaは、言語モデルでエンドツーエンドにトレーニングされた差別化可能なトークンエーザである。
MANTaは一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-14T15:33:44Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。