Fugu-MT 論文翻訳(概要): Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

論文の概要: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

arxiv url: http://arxiv.org/abs/2401.17377v1
Date: Tue, 30 Jan 2024 19:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 16:42:08.753238
Title: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
Title（参考訳）: Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング
Authors: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi
Abstract要約: 神経大言語モデル(LLM)の時代において,n-gram言語モデルはいまだに関係していることを示す。 Infini-gramという名前のエンジン - 接尾辞配列をベースとして - はミリ秒レベルのレイテンシで$infty$-gramの確率を計算することができる。その結果,次の予測精度(47%)はかなり高く,言語モデリングの難易度を大幅に低減するために,ニューラルLLMを補うことができることがわかった。
参考スコア（独自算出の注目度）: 148.44679480658303
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Are n-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we show their values in both text analysis and improving neural LLMs. Yet this necessitates modernizing n-gram models in two aspects. First, we train them at the same data scale as neural LLMs -- 1.4 trillion tokens. This is the largest n-gram model ever built. Second, existing n-gram models use small n which hinders their performance; we instead allow n to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing n-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as n-gram with arbitrary n) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their language modeling perplexities. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers. We open-source our infini-gram engine in the hopes of enabling more study on how to best use verbatim information retrieved from large text corpora.
Abstract（参考訳）: n-gram言語モデルは、この時代の神経大言語モデル(LLM)にまだ関係があるだろうか? 我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。しかし、これは n-gram モデルを2つの側面で近代化する必要がある。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします -- 1.4兆トークンです。これは史上最大のn-gramモデルである。第二に、既存の n-gram モデルは、その性能を妨げる小さな n を用いており、代わりに、バックオフ付き $\infty$-gram LM を導入して n を任意の大きさにすることができる。 n-gramカウントテーブルをプリ計算する(非常に高価)代わりに、ミリ秒レベルのレイテンシで$\infty$-gram(および任意のn-gramを持つn-gram)の確率を計算できるinfini-gramというエンジンを開発します。例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしと機械生成のテキストの新規かつ興味深い分析を可能にする:$\infty$-gram LMは、次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完し、言語モデリングの難易度を大幅に減らすことができる。また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。我々は,大規模なテキストコーパスから検索した動詞情報をどのように最適に活用するか,さらなる研究を可能にするために,インフィニグラムエンジンをオープンソース化した。

関連論文リスト

Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。 MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文参考訳（メタデータ） (2024-12-04T23:14:00Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文参考訳（メタデータ） (2024-06-18T21:31:19Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文参考訳（メタデータ） (2024-04-23T12:51:37Z)
The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文参考訳（メタデータ） (2024-03-25T22:42:19Z)
Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文参考訳（メタデータ） (2022-10-26T02:42:53Z)
RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。 Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文参考訳（メタデータ） (2020-10-15T04:42:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。