論文の概要: BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models
- arxiv url: http://arxiv.org/abs/2310.01329v2
- Date: Fri, 3 May 2024 05:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:06:46.048203
- Title: BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models
- Title(参考訳): BTR: 効率的な検索言語モデルのためのバイナリトークン表現
- Authors: Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi,
- Abstract要約: Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
- 参考スコア(独自算出の注目度): 77.0501668780182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduce binary token representations (BTR), which use 1-bit vectors to precompute every token in passages, significantly reducing computation during inference. Despite the potential loss of accuracy, our new calibration techniques and training objectives restore performance. Combined with offline and runtime compression, this only requires 127GB of disk space for encoding 3 billion tokens in Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR accelerates state-of-the-art inference by up to 4x and reduces storage by over 100x while maintaining over 95% task performance.
- Abstract(参考訳): Retrieval augmentationは、幻覚、安定化、プライバシー漏洩など、大規模な言語モデルにおける多くの重要な問題に対処する。
しかし, 検索拡張言語モデル (LM) の実行は遅く, 大量の検索テキストを処理するため, スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入し,推論時の計算量を大幅に削減する。
精度が低下する可能性があるにもかかわらず、我々の新しい校正手法と訓練目的は性能を回復する。
オフラインとランタイムの圧縮を組み合わせることで、ウィキペディアで30億のトークンをエンコードするためにディスクスペースは127GBしか必要としない。
実験の結果,5つの知識集約型NLPタスクにおいて,BTRは最先端の推論を最大4倍に高速化し,95%以上のタスク性能を維持しつつ,100倍以上のストレージを削減できることがわかった。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via
Self-Distillation [13.262366437264188]
BitDistillerは、大規模言語モデル(LLM)の性能を高めるために、知識蒸留(KD)と量子化認識トレーニング(QAT)を相乗化するフレームワークである。
具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称な量子化とクリッピング技術を導入し、その後、新しい信頼性・コールバック・リーブラー分岐(CAKLD)の目的を提案する。
実証的な評価では、BitDistillerは、一般的な言語理解と複雑な推論ベンチマーク上の3ビットおよび2ビット構成の両方において、既存のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-16T12:27:15Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。