論文の概要: EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices
- arxiv url: http://arxiv.org/abs/2503.22196v1
- Date: Fri, 28 Mar 2025 07:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.59801
- Title: EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices
- Title(参考訳): EdgeInfinite:エッジデバイスのためのメモリ効率の良い無限コンテキストトランス
- Authors: Jiyu Chen, Shuang Peng, Daxiong Luo, Fan Yang, Renshou Wu, Fangyuan Li, Xiaoxin Chen,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
- 参考スコア(独自算出の注目度): 3.739419555718102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (LLMs) encounter challenges in processing long sequences on edge devices due to the quadratic complexity of attention mechanisms and growing memory demands from Key-Value (KV) cache. Existing KV cache optimizations struggle with irreversible token eviction in long-output tasks, while alternative sequence modeling architectures prove costly to adopt within established Transformer infrastructure. We present EdgeInfinite, a memory-efficient solution for infinite contexts that integrates compressed memory into Transformer-based LLMs through a trainable memory-gating module. This approach maintains full compatibility with standard Transformer architectures, requiring fine-tuning only a small part of parameters, and enables selective activation of the memory-gating module for long and short context task routing. The experimental result shows that EdgeInfinite achieves comparable performance to baseline Transformer-based LLM on long context benchmarks while optimizing memory consumption and time to first token.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、注意機構の二次的な複雑さとキーバリュー(KV)キャッシュからのメモリ要求の増加により、エッジデバイス上での長いシーケンス処理の課題に直面する。
既存のKVキャッシュ最適化は、長期出力タスクにおいて不可逆なトークン消去に苦労する一方、代替シーケンスモデリングアーキテクチャは、確立されたTransformerインフラストラクチャ内で採用するのにコストがかかる。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs through a trainable memory-gating module。
このアプローチは標準のTransformerアーキテクチャとの完全な互換性を維持しており、パラメータのごく一部だけを微調整する必要がある。
実験結果から、EdgeInfiniteは、メモリ消費とトークンへの時間を最適化しながら、長いコンテキストベンチマークで、ベースラインのTransformerベースのLLMに匹敵する性能を実現していることがわかった。
関連論文リスト
- Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management [0.5899781520375794]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。
長いコンテンツを生成するための推論を提供することは、過渡状態の巨大なメモリフットプリントのために課題となる。
InfiniGenは、長文生成に適した新しいKVキャッシュ管理フレームワークである。
論文 参考訳(メタデータ) (2024-06-28T07:41:26Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin
Machines [5.6634493664726495]
機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。
Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。
本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T10:55:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq
Generation [104.44478403427881]
EdgeFormerは、オンデバイスセq2seq生成のためのエンコーダデコーダアーキテクチャのパラメータ効率の変換器である。
本研究は,機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクの実験を行う。
論文 参考訳(メタデータ) (2022-02-16T10:10:00Z) - Streaming Transformer-based Acoustic Models Using Self-attention with
Augmented Memory [23.022723184325017]
変換器をベースとした音響モデリングは,ハイブリッド・シーケンス・ツー・シーケンス音声認識の双方において大きな成功をおさめている。
本稿では,入力シーケンスの短い部分とメモリバンクに参画する,新たな自己記憶機能を提案する。
論文 参考訳(メタデータ) (2020-05-16T16:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。