論文の概要: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion
Tokens
- arxiv url: http://arxiv.org/abs/2401.17377v1
- Date: Tue, 30 Jan 2024 19:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:42:08.753238
- Title: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion
Tokens
- Title(参考訳): Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング
- Authors: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh
Hajishirzi
- Abstract要約: 神経大言語モデル(LLM)の時代において,n-gram言語モデルはいまだに関係していることを示す。
Infini-gramという名前のエンジン - 接尾辞配列をベースとして - はミリ秒レベルのレイテンシで$infty$-gramの確率を計算することができる。
その結果,次の予測精度(47%)はかなり高く,言語モデリングの難易度を大幅に低減するために,ニューラルLLMを補うことができることがわかった。
- 参考スコア(独自算出の注目度): 148.44679480658303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Are n-gram language models still relevant in this era of neural large
language models (LLMs)? Our answer is yes, and we show their values in both
text analysis and improving neural LLMs. Yet this necessitates modernizing
n-gram models in two aspects. First, we train them at the same data scale as
neural LLMs -- 1.4 trillion tokens. This is the largest n-gram model ever
built. Second, existing n-gram models use small n which hinders their
performance; we instead allow n to be arbitrarily large, by introducing a new
$\infty$-gram LM with backoff. Instead of pre-computing n-gram count tables
(which would be very expensive), we develop an engine named infini-gram --
powered by suffix arrays -- that can compute $\infty$-gram (as well as n-gram
with arbitrary n) probabilities with millisecond-level latency. The
$\infty$-gram framework and infini-gram engine enable us to conduct many novel
and interesting analyses of human-written and machine-generated text: we find
that the $\infty$-gram LM has fairly high accuracy for next-token prediction
(47%), and can complement neural LLMs to greatly reduce their language modeling
perplexities. When analyzing machine-generated text, we also observe
irregularities in the machine--$\infty$-gram agreement level with respect to
the suffix length, which indicates deficiencies in neural LLM pretraining and
the positional embeddings of Transformers. We open-source our infini-gram
engine in the hopes of enabling more study on how to best use verbatim
information retrieved from large text corpora.
- Abstract(参考訳): n-gram言語モデルは、この時代の神経大言語モデル(LLM)にまだ関係があるだろうか?
我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。
しかし、これは n-gram モデルを2つの側面で近代化する必要がある。
まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします -- 1.4兆トークンです。
これは史上最大のn-gramモデルである。
第二に、既存の n-gram モデルは、その性能を妨げる小さな n を用いており、代わりに、バックオフ付き $\infty$-gram LM を導入して n を任意の大きさにすることができる。
n-gramカウントテーブルをプリ計算する(非常に高価)代わりに、ミリ秒レベルのレイテンシで$\infty$-gram(および任意のn-gramを持つn-gram)の確率を計算できるinfini-gramというエンジンを開発します。
例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしと機械生成のテキストの新規かつ興味深い分析を可能にする:$\infty$-gram LMは、次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完し、言語モデリングの難易度を大幅に減らすことができる。
また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。
我々は,大規模なテキストコーパスから検索した動詞情報をどのように最適に活用するか,さらなる研究を可能にするために,インフィニグラムエンジンをオープンソース化した。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文 参考訳(メタデータ) (2024-03-25T22:42:19Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。