論文の概要: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion
Tokens
- arxiv url: http://arxiv.org/abs/2401.17377v1
- Date: Tue, 30 Jan 2024 19:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:42:08.753238
- Title: Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion
Tokens
- Title(参考訳): Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング
- Authors: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh
Hajishirzi
- Abstract要約: 神経大言語モデル(LLM)の時代において,n-gram言語モデルはいまだに関係していることを示す。
Infini-gramという名前のエンジン - 接尾辞配列をベースとして - はミリ秒レベルのレイテンシで$infty$-gramの確率を計算することができる。
その結果,次の予測精度(47%)はかなり高く,言語モデリングの難易度を大幅に低減するために,ニューラルLLMを補うことができることがわかった。
- 参考スコア(独自算出の注目度): 148.44679480658303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Are n-gram language models still relevant in this era of neural large
language models (LLMs)? Our answer is yes, and we show their values in both
text analysis and improving neural LLMs. Yet this necessitates modernizing
n-gram models in two aspects. First, we train them at the same data scale as
neural LLMs -- 1.4 trillion tokens. This is the largest n-gram model ever
built. Second, existing n-gram models use small n which hinders their
performance; we instead allow n to be arbitrarily large, by introducing a new
$\infty$-gram LM with backoff. Instead of pre-computing n-gram count tables
(which would be very expensive), we develop an engine named infini-gram --
powered by suffix arrays -- that can compute $\infty$-gram (as well as n-gram
with arbitrary n) probabilities with millisecond-level latency. The
$\infty$-gram framework and infini-gram engine enable us to conduct many novel
and interesting analyses of human-written and machine-generated text: we find
that the $\infty$-gram LM has fairly high accuracy for next-token prediction
(47%), and can complement neural LLMs to greatly reduce their language modeling
perplexities. When analyzing machine-generated text, we also observe
irregularities in the machine--$\infty$-gram agreement level with respect to
the suffix length, which indicates deficiencies in neural LLM pretraining and
the positional embeddings of Transformers. We open-source our infini-gram
engine in the hopes of enabling more study on how to best use verbatim
information retrieved from large text corpora.
- Abstract(参考訳): n-gram言語モデルは、この時代の神経大言語モデル(LLM)にまだ関係があるだろうか?
我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。
しかし、これは n-gram モデルを2つの側面で近代化する必要がある。
まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします -- 1.4兆トークンです。
これは史上最大のn-gramモデルである。
第二に、既存の n-gram モデルは、その性能を妨げる小さな n を用いており、代わりに、バックオフ付き $\infty$-gram LM を導入して n を任意の大きさにすることができる。
n-gramカウントテーブルをプリ計算する(非常に高価)代わりに、ミリ秒レベルのレイテンシで$\infty$-gram(および任意のn-gramを持つn-gram)の確率を計算できるinfini-gramというエンジンを開発します。
例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしと機械生成のテキストの新規かつ興味深い分析を可能にする:$\infty$-gram LMは、次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完し、言語モデリングの難易度を大幅に減らすことができる。
また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。
我々は,大規模なテキストコーパスから検索した動詞情報をどのように最適に活用するか,さらなる研究を可能にするために,インフィニグラムエンジンをオープンソース化した。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Large Language Models on Graphs: A Comprehensive Survey [81.7684686396014]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Language is All a Graph Needs [33.9836278881785]
InstructGLM (Instruction-finetuned Graph Language Model) を提案する。
我々の手法は、ogbn-arxiv, Cora, PubMedデータセット上のすべてのGNNベースラインを超える。
論文 参考訳(メタデータ) (2023-08-14T13:41:09Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling
for Natural Language Understanding [44.21363470798758]
ERNIE-Gramは、粗粒度情報の事前学習への統合を強化するために、明示的にn-gramマスキング法である。
我々は、英語と中国語のテキストコーパスでERNIE-Gramを事前訓練し、19の下流タスクで微調整を行う。
実験結果から,ERNIE-GramはXLNetやRoBERTaといった従来の事前学習モデルよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。