論文の概要: Nugget 2D: Dynamic Contextual Compression for Scaling Decoder-only
Language Models
- arxiv url: http://arxiv.org/abs/2310.02409v1
- Date: Tue, 3 Oct 2023 20:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:41:42.833811
- Title: Nugget 2D: Dynamic Contextual Compression for Scaling Decoder-only
Language Models
- Title(参考訳): Nugget 2D:デコーダのみの言語モデルのスケーリングのための動的コンテキスト圧縮
- Authors: Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van
Durme
- Abstract要約: 本研究では,Qin & Van Durme(2023)のNuggetアプローチをBERTライクなフレームワークからデコーダのみのLMに拡張した動的文脈圧縮に基づくソリューションを提案する。
我々は,言語モデリング,質問応答,要約における実験を通じて,Nugget2Dがこれらのタスクの能力を保ちながら,時間と空間の面でデコード時のオーバーヘッドを大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 40.052828084723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Transformer-based language models (LMs) scale poorly to long
contexts. We propose a solution based on dynamic contextual compression, which
extends the Nugget approach of Qin & Van Durme (2023) from BERT-like frameworks
to decoder-only LMs. Our method models history as compressed "nuggets" which
are trained to allow for reconstruction, and it can be initialized with
off-the-shelf models such as LLaMA. We demonstrate through experiments in
language modeling, question answering, and summarization that Nugget2D retains
capabilities in these tasks, while drastically reducing the overhead during
decoding in terms of time and space. For example, in the experiments of
autoencoding, Nugget2D can shrink context at a 20x compression ratio with a
BLEU score of 98% for reconstruction, achieving nearly lossless encoding.
- Abstract(参考訳): 標準トランスフォーマーベースの言語モデル (LM) は、長いコンテキストに対して低スケールである。
本研究では,Qin & Van Durme(2023)のNuggetアプローチをBERTライクなフレームワークからデコーダのみのLMに拡張した動的文脈圧縮に基づくソリューションを提案する。
提案手法は, 圧縮された「ナゲット」として履歴をモデル化し, LLaMAのような既製のモデルで初期化することができる。
我々は,言語モデリング,質問応答,要約における実験を通じて,Nugget2Dがこれらのタスクの能力を保ちながら,時間と空間の面でデコード時のオーバーヘッドを大幅に削減することを示した。
例えば、自動符号化の実験では、Nugget2Dはコンテクストを20倍圧縮比で縮小することができ、BLEUスコアは98%であり、ほとんどロスレスエンコーディングを実現している。
関連論文リスト
- FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Learning to Compress Prompts with Gist Tokens [16.64173373856]
我々は、LMにプロンプトを小さな"gist"トークンセットに圧縮するよう訓練するgistingを提案する。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮を可能にする。
論文 参考訳(メタデータ) (2023-04-17T17:47:37Z) - Efficient Speech Translation with Dynamic Latent Perceivers [0.0]
トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質を大幅に向上させた。
本稿では、Perceiverエンコーダを用いて、音声入力を固定長の潜在表現にマッピングすることで、複雑さを軽減することを提案する。
また、動的遅延アクセス(DLA)により、計算オーバーヘッドを伴わずにより大きな潜在空間をアンロックする、Perceiversのトレーニング方法も導入する。
論文 参考訳(メタデータ) (2022-10-28T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。