論文の概要: Compact Recurrent Transformer with Persistent Memory
- arxiv url: http://arxiv.org/abs/2505.00929v1
- Date: Fri, 02 May 2025 00:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.869582
- Title: Compact Recurrent Transformer with Persistent Memory
- Title(参考訳): 持続記憶型小型リカレント変圧器
- Authors: Edison Mucllari, Zachary Daniels, David Zhang, Qiang Ye,
- Abstract要約: Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
高速なCRT(Compact Recurrent Transformer)を提案する。
CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
- 参考スコア(独自算出の注目度): 16.48606806238812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has shown significant success in many language processing and visual tasks. However, the method faces challenges in efficiently scaling to long sequences because the self-attention computation is quadratic with respect to the input length. To overcome this limitation, several approaches scale to longer sequences by breaking long sequences into a series of segments, restricting self-attention to local dependencies between tokens within each segment and using a memory mechanism to manage information flow between segments. However, these approached generally introduce additional compute overhead that restricts them from being used for applications where limited compute memory and power are of great concern (such as edge computing). We propose a novel and efficient Compact Recurrent Transformer (CRT), which combines shallow Transformer models that process short local segments with recurrent neural networks to compress and manage a single persistent memory vector that summarizes long-range global information between segments. We evaluate CRT on WordPTB and WikiText-103 for next-token-prediction tasks, as well as on the Toyota Smarthome video dataset for classification. CRT achieves comparable or superior prediction results to full-length Transformers in the language datasets while using significantly shorter segments (half or quarter size) and substantially reduced FLOPs. Our approach also demonstrates state-of-the-art performance on the Toyota Smarthome video dataset.
- Abstract(参考訳): Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
しかし,本手法は,入力長に対して,自己注意計算が二次的であるため,効率よく長い列にスケールする際の課題に直面する。
この制限を克服するために、いくつかのアプローチは、長いシーケンスを一連のセグメントに分割し、各セグメント内のトークン間のローカル依存関係への自己アテンションを制限し、セグメント間の情報フローを管理するメモリメカニズムを使用して、より長いシーケンスにスケールする。
しかしながら、これらのアプローチは一般的に、コンピューティングメモリと電力が(エッジコンピューティングのような)大きな関心を持つアプリケーションでの使用を制限する、追加の計算オーバーヘッドを導入している。
本稿では,短い局所セグメントを処理する浅層変圧器モデルとリカレントニューラルネットワークを併用して,セグメント間の長距離グローバル情報を要約した1つの永続メモリベクトルを圧縮・管理する,新しい,効率的なコンパクト・リカレント・トランスフォーマを提案する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
CRTは、言語データセットのフル長トランスフォーマーに匹敵する、あるいは優れた予測結果を達成し、より短いセグメント(半分または4分の1サイズ)と大幅に削減されたFLOPを使用する。
提案手法では,Toyota Smarthomeビデオデータセット上での最先端のパフォーマンスも示す。
関連論文リスト
- Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - CacheFormer: High Attention-Based Segment Caching [0.0]
パープレキシティの低いトランスフォーマーベース言語モデルにおいて,長いコンテキストを効率的に処理する方法を示す。
我々の拡張により、既存のSOTAアーキテクチャよりも平均パープレキシティが8.5%向上し、類似のモデルサイズよりも優れています。
論文 参考訳(メタデータ) (2025-04-18T06:34:57Z) - EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文 参考訳(メタデータ) (2025-03-28T07:26:37Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。