論文の概要: Dodo: Dynamic Contextual Compression for Decoder-only LMs
- arxiv url: http://arxiv.org/abs/2310.02409v2
- Date: Thu, 13 Jun 2024 15:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:19:21.576235
- Title: Dodo: Dynamic Contextual Compression for Decoder-only LMs
- Title(参考訳): Dodo: デコーダのみのLMのための動的コンテキスト圧縮
- Authors: Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van Durme,
- Abstract要約: Dodoは、各レイヤに隠された状態の動的数でテキストを表す。
Dodoは、自動回帰型LMまたは下流タスクのコンテキストコンプレッサーとして機能する。
- 参考スコア(独自算出の注目度): 37.33325174145655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) are inefficient in long contexts. We propose Dodo, a solution for context compression. Instead of one vector per token in a standard transformer model, Dodo represents text with a dynamic number of hidden states at each layer, reducing the cost of self-attention to a fraction of typical time and space. Moreover, off-the-shelf models such as LLaMA can be adapted to Dodo by efficient parameter tuning methods such as LoRA. In use, Dodo can act as either an autoregressive LM or a context compressor for downstream tasks. We demonstrate through experiments in language modeling, question answering, and summarization that Dodo retains capabilities in these tasks, while drastically reducing the overhead during decoding. For example, in the autoencoding task, Dodo shrinks context at a 20x compression ratio with a BLEU score of 98% for reconstruction, achieving nearly lossless encoding.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は、長いコンテキストでは非効率である。
本研究では,コンテキスト圧縮のソリューションであるDodoを提案する。
標準的なトランスモデルではトークン単位のベクトルが1つではなく、Dodoは各レイヤに隠れた状態の動的数を持つテキストを表現し、通常の時間と空間のごく一部に自己アテンションのコストを下げる。
さらに、LLaMAのような市販のモデルは、LoRAのような効率的なパラメータチューニング手法により、Dodoに適応することができる。
使用する場合、Dodoは自動回帰型LMまたは下流タスクのコンテクストコンプレッサーとして機能する。
言語モデリングや質問応答,要約などの実験を通じて,Dodoがこれらのタスクの能力を維持しつつ,デコード時のオーバーヘッドを大幅に削減することを示す。
例えば、自動エンコーディングタスクでは、BLEUスコアが98%の20倍圧縮比でコンテキストを縮小し、ほとんどロスレスエンコーディングを実現している。
関連論文リスト
- FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Learning to Compress Prompts with Gist Tokens [16.64173373856]
我々は、LMにプロンプトを小さな"gist"トークンセットに圧縮するよう訓練するgistingを提案する。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮を可能にする。
論文 参考訳(メタデータ) (2023-04-17T17:47:37Z) - Efficient Speech Translation with Dynamic Latent Perceivers [0.0]
トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質を大幅に向上させた。
本稿では、Perceiverエンコーダを用いて、音声入力を固定長の潜在表現にマッピングすることで、複雑さを軽減することを提案する。
また、動的遅延アクセス(DLA)により、計算オーバーヘッドを伴わずにより大きな潜在空間をアンロックする、Perceiversのトレーニング方法も導入する。
論文 参考訳(メタデータ) (2022-10-28T16:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。