Fugu-MT 論文翻訳(概要): Cached Transformers: Improving Transformers with Differentiable Memory Cache

論文の概要: Cached Transformers: Improving Transformers with Differentiable Memory Cache

arxiv url: http://arxiv.org/abs/2312.12742v1
Date: Wed, 20 Dec 2023 03:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:49:10.597609
Title: Cached Transformers: Improving Transformers with Differentiable Memory Cache
Title（参考訳）: Cached Transformers: メモリキャッシュの異なるトランスフォーマーの改善
Authors: Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo
Abstract要約: この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。 Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
参考スコア（独自算出の注目度）: 71.28188777209034
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in \textbf{six} language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations.
Abstract（参考訳）: この研究は、キャッシュトランスと呼ばれる新しいトランスフォーマーモデルを導入し、ゲートリカレントキャッシュ(grc)の注意力を利用して、トークンの微分可能なメモリキャッシュで自己アテンション機構を拡張する。 GRCアテンションは過去と現在のトークンの両方への参加を可能にし、アテンションの受容領域を増やし、長距離依存関係を探索することを可能にする。再帰ゲーティングユニットを使用してキャッシュを継続的に更新することにより、言語モデリング、機械翻訳、listops、画像分類、オブジェクト検出、インスタンスセグメンテーションを含む、 \textbf{six}言語とビジョンタスクの大幅な進歩を実現する。さらに,本手法は,言語モデリングなどのタスクにおける従来のメモリベース手法を超越し,幅広い状況に適応する能力を示す。

関連論文リスト

Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2026-02-27T18:53:41Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management [0.5899781520375794]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。長いコンテンツを生成するための推論を提供することは、過渡状態の巨大なメモリフットプリントのために課題となる。 InfiniGenは、長文生成に適した新しいKVキャッシュ管理フレームワークである。
論文参考訳（メタデータ） (2024-06-28T07:41:26Z)
Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文参考訳（メタデータ） (2024-05-17T08:59:46Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文参考訳（メタデータ） (2024-02-23T07:46:30Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
HM4: Hidden Markov Model with Memory Management for Visual Place Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文参考訳（メタデータ） (2020-11-01T08:49:24Z)
Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文参考訳（メタデータ） (2020-06-20T09:06:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。