論文の概要: Improving language models by retrieving from trillions of tokens
- arxiv url: http://arxiv.org/abs/2112.04426v1
- Date: Wed, 8 Dec 2021 17:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:38:24.233718
- Title: Improving language models by retrieving from trillions of tokens
- Title(参考訳): 数兆のトークンからの検索による言語モデルの改善
- Authors: Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza
Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau,
Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick,
Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin
Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon
Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre
- Abstract要約: 大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 50.42630445476544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We enhance auto-regressive language models by conditioning on document chunks
retrieved from a large corpus, based on local similarity with preceding tokens.
With a $2$ trillion token database, our Retrieval-Enhanced Transformer (RETRO)
obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite
using 25$\times$ fewer parameters. After fine-tuning, RETRO performance
translates to downstream knowledge-intensive tasks such as question answering.
RETRO combines a frozen Bert retriever, a differentiable encoder and a chunked
cross-attention mechanism to predict tokens based on an order of magnitude more
data than what is typically consumed during training. We typically train RETRO
from scratch, yet can also rapidly RETROfit pre-trained transformers with
retrieval and still achieve good performance. Our work opens up new avenues for
improving language models through explicit memory at unprecedented scale.
- Abstract(参考訳): 我々は,先行トークンと局所的類似性に基づいて,大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースを使用すれば、25$\times$パラメータが少ないにも関わらず、Retrieval-Enhanced Transformer(RETRO)は、Pile上のGPT-3やJurassic-1に匹敵するパフォーマンスを得ることができます。
微調整の後、RETROのパフォーマンスは質問応答のような下流の知識集約タスクに変換される。
RETROは、凍結したベルトレトリバー、微分可能なエンコーダ、チャンクされたクロスアテンション機構を組み合わせて、トレーニング中に通常消費されるものよりもはるかに多くのデータに基づいてトークンを予測する。
典型的には、RETROをゼロからトレーニングするが、事前訓練された変換器を迅速に検索でき、性能も良好である。
我々の研究は、前例のない規模で明示的なメモリを通して言語モデルを改善するための新しい道を開く。
関連論文リスト
- Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models [86.75729087623259]
再帰は人間の言語の特徴であり、本質的には自己注意に挑戦する。
この作業では、新しいセルフアテンション層であるPushdown Layersを導入している。
プッシュダウン層を備えたトランスフォーマーは、劇的に改善され、3.5倍の高効率な構文一般化を実現した。
論文 参考訳(メタデータ) (2023-10-29T17:27:18Z) - On the Generalization Ability of Retrieval-Enhanced Transformers [1.0552465253379135]
トレーニング可能な重みから検索データベースへのオフロードメモリは、言語モデリングを大幅に改善することができる。
この性能向上の少なくとも一部は、モデル重みと検索の両方に基づく非自明な一般化によるものであることが示唆されている。
検索結果から得られる性能は,データベースとテストデータの間に重複するトークンが主な原因であることが判明した。
論文 参考訳(メタデータ) (2023-02-23T16:11:04Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - History Compression via Language Models in Reinforcement Learning [5.937618881286057]
部分的に観測可能なマルコフ決定プロセス(POMDP)では、エージェントは通常、過去の表現を使って基礎となるMDPを近似する。
歴史表現と圧縮にフリーズした事前学習言語変換器 (PLT) を用い, サンプル効率を向上させることを提案する。
我々の新しい手法であるHELMは、メモリモジュールとしての履歴表現のための事前訓練された言語変換器を含むアクタ・クリティカル・ネットワークアーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-05-24T17:59:29Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。