論文の概要: Compact Recurrent Transformer with Persistent Memory
- arxiv url: http://arxiv.org/abs/2505.00929v1
- Date: Fri, 02 May 2025 00:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.869582
- Title: Compact Recurrent Transformer with Persistent Memory
- Title(参考訳): 持続記憶型小型リカレント変圧器
- Authors: Edison Mucllari, Zachary Daniels, David Zhang, Qiang Ye,
- Abstract要約: Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
高速なCRT(Compact Recurrent Transformer)を提案する。
CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
- 参考スコア(独自算出の注目度): 16.48606806238812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has shown significant success in many language processing and visual tasks. However, the method faces challenges in efficiently scaling to long sequences because the self-attention computation is quadratic with respect to the input length. To overcome this limitation, several approaches scale to longer sequences by breaking long sequences into a series of segments, restricting self-attention to local dependencies between tokens within each segment and using a memory mechanism to manage information flow between segments. However, these approached generally introduce additional compute overhead that restricts them from being used for applications where limited compute memory and power are of great concern (such as edge computing). We propose a novel and efficient Compact Recurrent Transformer (CRT), which combines shallow Transformer models that process short local segments with recurrent neural networks to compress and manage a single persistent memory vector that summarizes long-range global information between segments. We evaluate CRT on WordPTB and WikiText-103 for next-token-prediction tasks, as well as on the Toyota Smarthome video dataset for classification. CRT achieves comparable or superior prediction results to full-length Transformers in the language datasets while using significantly shorter segments (half or quarter size) and substantially reduced FLOPs. Our approach also demonstrates state-of-the-art performance on the Toyota Smarthome video dataset.
- Abstract(参考訳): Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
しかし,本手法は,入力長に対して,自己注意計算が二次的であるため,効率よく長い列にスケールする際の課題に直面する。
この制限を克服するために、いくつかのアプローチは、長いシーケンスを一連のセグメントに分割し、各セグメント内のトークン間のローカル依存関係への自己アテンションを制限し、セグメント間の情報フローを管理するメモリメカニズムを使用して、より長いシーケンスにスケールする。
しかしながら、これらのアプローチは一般的に、コンピューティングメモリと電力が(エッジコンピューティングのような)大きな関心を持つアプリケーションでの使用を制限する、追加の計算オーバーヘッドを導入している。
本稿では,短い局所セグメントを処理する浅層変圧器モデルとリカレントニューラルネットワークを併用して,セグメント間の長距離グローバル情報を要約した1つの永続メモリベクトルを圧縮・管理する,新しい,効率的なコンパクト・リカレント・トランスフォーマを提案する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
CRTは、言語データセットのフル長トランスフォーマーに匹敵する、あるいは優れた予測結果を達成し、より短いセグメント(半分または4分の1サイズ)と大幅に削減されたFLOPを使用する。
提案手法では,Toyota Smarthomeビデオデータセット上での最先端のパフォーマンスも示す。
関連論文リスト
- CacheFormer: High Attention-Based Segment Caching [0.0]
パープレキシティの低いトランスフォーマーベース言語モデルにおいて,長いコンテキストを効率的に処理する方法を示す。
我々の拡張により、既存のSOTAアーキテクチャよりも平均パープレキシティが8.5%向上し、類似のモデルサイズよりも優れています。
論文 参考訳(メタデータ) (2025-04-18T06:34:57Z) - EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文 参考訳(メタデータ) (2025-03-28T07:26:37Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。