論文の概要: BTR: Binary Token Representations for Efficient Retrieval Augmented
Language Models
- arxiv url: http://arxiv.org/abs/2310.01329v1
- Date: Mon, 2 Oct 2023 16:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:50:43.163445
- Title: BTR: Binary Token Representations for Efficient Retrieval Augmented
Language Models
- Title(参考訳): BTR: 効率的な検索言語モデルのためのバイナリトークン表現
- Authors: Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi
- Abstract要約: Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
- 参考スコア(独自算出の注目度): 84.17177206798695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmentation addresses many critical problems in large language
models such as hallucination, staleness, and privacy leaks. However, running
retrieval-augmented language models (LMs) is slow and difficult to scale due to
processing large amounts of retrieved text. We introduce binary token
representations (BTR), which use 1-bit vectors to precompute every token in
passages, significantly reducing computation during inference. Despite the
potential loss of accuracy, our new calibration techniques and training
objectives restore performance. Combined with offline and runtime compression,
this only requires 127GB of disk space for encoding 3 billion tokens in
Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR
accelerates state-of-the-art inference by up to 4x and reduces storage by over
100x while maintaining over 95% task performance.
- Abstract(参考訳): 検索拡張は幻覚、停滞、プライバシリークなど、大きな言語モデルにおける多くの重要な問題に対処する。
しかし,検索拡張言語モデル(LM)の実行は遅く,大量の検索テキストを処理するため,スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入し,推論時の計算量を大幅に削減する。
精度が失われる可能性があるにもかかわらず、新しい校正技術と訓練目標は性能を回復させる。
オフライン圧縮とランタイム圧縮を組み合わせると、wikipediaで30億トークンをエンコードするのに127gbのディスクスペースしか必要なくなる。
実験により,5つの知識集約型nlpタスクにおいて,btrは最大4倍の最先端推論を高速化し,95%以上のタスク性能を維持しつつストレージを100倍以上削減することを示した。
関連論文リスト
- BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via
Self-Distillation [13.262366437264188]
BitDistillerは、大規模言語モデル(LLM)の性能を高めるために、知識蒸留(KD)と量子化認識トレーニング(QAT)を相乗化するフレームワークである。
具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称な量子化とクリッピング技術を導入し、その後、新しい信頼性・コールバック・リーブラー分岐(CAKLD)の目的を提案する。
実証的な評価では、BitDistillerは、一般的な言語理解と複雑な推論ベンチマーク上の3ビットおよび2ビット構成の両方において、既存のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-16T12:27:15Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。