Fugu-MT 論文翻訳(概要): Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

論文の概要: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

arxiv url: http://arxiv.org/abs/2401.17377v3
Date: Thu, 4 Apr 2024 17:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:33:07.524270
Title: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
Title（参考訳）: Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング
Authors: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi,
Abstract要約: 神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
参考スコア（独自算出の注目度）: 138.36729703589512
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Are $n$-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we showcase their values in both text analysis and improving neural LLMs. This was done by modernizing $n$-gram LMs in two aspects. First, we train them at the same data scale as neural LLMs -- 5 trillion tokens. This is the largest $n$-gram LM ever built. Second, existing $n$-gram LMs use small $n$ which hinders their performance; we instead allow $n$ to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing $n$-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as $n$-gram with arbitrary $n$) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their perplexity. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers.
Abstract（参考訳）: LLM(Neural Large Language Model)の時代において、$n$-gramの言語モデルはいまだに関係しているのだろうか? 我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。これは2つの面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします。これは過去最大の$n$-gram LMである。第二に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。プリ計算で$n$-gramのカウントテーブル(非常に高価な)を使わずに、ミリ秒レベルのレイテンシで$\infty$-gram(および$n$-gramの任意の$n$-gram)の確率を計算できるInfini-gramというエンジンを開発しました。例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしおよび機械生成テキストの新規かつ興味深い分析を可能にします:$\infty$-gram LMは次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完することで、その複雑さを大幅に低減できる。また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。

関連論文リスト

Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。 MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文参考訳（メタデータ） (2024-12-04T23:14:00Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文参考訳（メタデータ） (2024-06-18T21:31:19Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文参考訳（メタデータ） (2024-04-23T12:51:37Z)
The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文参考訳（メタデータ） (2024-03-25T22:42:19Z)
Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文参考訳（メタデータ） (2022-10-26T02:42:53Z)
RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。 Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文参考訳（メタデータ） (2020-10-15T04:42:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。