論文の概要: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
- arxiv url: http://arxiv.org/abs/2401.17377v3
- Date: Thu, 4 Apr 2024 17:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:33:07.524270
- Title: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
- Title(参考訳): Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング
- Authors: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi,
- Abstract要約: 神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
- 参考スコア(独自算出の注目度): 138.36729703589512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Are $n$-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we showcase their values in both text analysis and improving neural LLMs. This was done by modernizing $n$-gram LMs in two aspects. First, we train them at the same data scale as neural LLMs -- 5 trillion tokens. This is the largest $n$-gram LM ever built. Second, existing $n$-gram LMs use small $n$ which hinders their performance; we instead allow $n$ to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing $n$-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as $n$-gram with arbitrary $n$) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their perplexity. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers.
- Abstract(参考訳): LLM(Neural Large Language Model)の時代において、$n$-gramの言語モデルはいまだに関係しているのだろうか?
我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。
これは2つの面で$n$-gramのLMを近代化することで実現された。
まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします。
これは過去最大の$n$-gram LMである。
第二に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
プリ計算で$n$-gramのカウントテーブル(非常に高価な)を使わずに、ミリ秒レベルのレイテンシで$\infty$-gram(および$n$-gramの任意の$n$-gram)の確率を計算できるInfini-gramというエンジンを開発しました。
例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしおよび機械生成テキストの新規かつ興味深い分析を可能にします:$\infty$-gram LMは次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完することで、その複雑さを大幅に低減できる。
また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。
関連論文リスト
- Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。
我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。
MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文 参考訳(メタデータ) (2024-12-04T23:14:00Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文 参考訳(メタデータ) (2024-03-25T22:42:19Z) - Why are state-space models more expressive than $n$-gram models? [51.823427608117626]
我々は、$n$-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築した。
我々の証明は、SSMが記憶能力の新たな理論的結果を用いて$n$-gramルールをエンコードする方法を示している。
我々は、$n$-gramルールから生成された小さなデータセットで実験を行い、フレームワークをどのように適用できるかを示します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。