Fugu-MT 論文翻訳(概要): BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models

論文の概要: BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models

arxiv url: http://arxiv.org/abs/2310.01329v2
Date: Fri, 3 May 2024 05:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 18:06:46.048203
Title: BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models
Title（参考訳）: BTR: 効率的な検索言語モデルのためのバイナリトークン表現
Authors: Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi,
Abstract要約: Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。 1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
参考スコア（独自算出の注目度）: 77.0501668780182
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduce binary token representations (BTR), which use 1-bit vectors to precompute every token in passages, significantly reducing computation during inference. Despite the potential loss of accuracy, our new calibration techniques and training objectives restore performance. Combined with offline and runtime compression, this only requires 127GB of disk space for encoding 3 billion tokens in Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR accelerates state-of-the-art inference by up to 4x and reduces storage by over 100x while maintaining over 95% task performance.
Abstract（参考訳）: Retrieval augmentationは、幻覚、安定化、プライバシー漏洩など、大規模な言語モデルにおける多くの重要な問題に対処する。しかし, 検索拡張言語モデル (LM) の実行は遅く, 大量の検索テキストを処理するため, スケールが困難である。 1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入し,推論時の計算量を大幅に削減する。精度が低下する可能性があるにもかかわらず、我々の新しい校正手法と訓練目的は性能を回復する。オフラインとランタイムの圧縮を組み合わせることで、ウィキペディアで30億のトークンをエンコードするためにディスクスペースは127GBしか必要としない。実験の結果,5つの知識集約型NLPタスクにおいて,BTRは最先端の推論を最大4倍に高速化し,95%以上のタスク性能を維持しつつ,100倍以上のストレージを削減できることがわかった。

関連論文リスト

LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-21T16:57:22Z)
Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。 11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文参考訳（メタデータ） (2025-02-02T13:10:06Z)
Adjoint sharding for very long context training of state space models [7.723642550918118]
随伴シャーディング(英: Adjoint sharding)は、訓練中のメモリ要求を桁違いに削減するシャーディング勾配計算を含む技法である。提案手法は,1Mコンテキスト長トレーニングにおける1.27Bパラメータの大言語モデルを用いて,メモリ使用量を最大3倍に削減する。これにより、トレーニング中の最大コンテキスト長を35Kトークンから5つのAWS P4インスタンスで構成されるトレーニングインフラストラクチャ上で100Kトークンに微調整することが可能になる。
論文参考訳（メタデータ） (2025-01-01T01:10:59Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。 MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文参考訳（メタデータ） (2024-10-28T06:14:12Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation [13.262366437264188]
BitDistillerは、大規模言語モデル(LLM)の性能を高めるために、知識蒸留(KD)と量子化認識トレーニング(QAT)を相乗化するフレームワークである。具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称な量子化とクリッピング技術を導入し、その後、新しい信頼性・コールバック・リーブラー分岐(CAKLD)の目的を提案する。実証的な評価では、BitDistillerは、一般的な言語理解と複雑な推論ベンチマーク上の3ビットおよび2ビット構成の両方において、既存のメソッドを大幅に上回っている。
論文参考訳（メタデータ） (2024-02-16T12:27:15Z)
Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文参考訳（メタデータ） (2023-12-12T16:41:29Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)
Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。 2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文参考訳（メタデータ） (2021-12-08T17:32:34Z)
Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文参考訳（メタデータ） (2021-11-10T15:52:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。