Fugu-MT 論文翻訳(概要): SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers

論文の概要: SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers

arxiv url: http://arxiv.org/abs/2211.16634v1
Date: Tue, 29 Nov 2022 23:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:29:24.507426
Title: SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers
Title（参考訳）: spartan:パラメータ効率のよいトランスフォーマーのためのスパース階層メモリ
Authors: Ameet Deshpande, Md Arafat Sultan, Anthony Ferritto, Ashwin Kalyan, Karthik Narasimhan, Avirup Sil
Abstract要約: SPARTANは、エッジデバイスのためのパラメータ効率(PE)と計算的に高速なアーキテクチャである。トランスフォーマー層の後、階層的に整理されたスパースメモリを追加する。数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内で実行することができる。
参考スコア（独自算出の注目度）: 29.721162097790646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning pre-trained language models (PLMs) achieves impressive performance on a range of downstream tasks, and their sizes have consequently been getting bigger. Since a different copy of the model is required for each task, this paradigm is infeasible for storage-constrained edge devices like mobile phones. In this paper, we propose SPARTAN, a parameter efficient (PE) and computationally fast architecture for edge devices that adds hierarchically organized sparse memory after each Transformer layer. SPARTAN freezes the PLM parameters and fine-tunes only its memory, thus significantly reducing storage costs by re-using the PLM backbone for different tasks. SPARTAN contains two levels of memory, with only a sparse subset of parents being chosen in the first level for each input, and children cells corresponding to those parents being used to compute an output representation. This sparsity combined with other architecture optimizations improves SPARTAN's throughput by over 90% during inference on a Raspberry Pi 4 when compared to PE baselines (adapters) while also outperforming the latter by 0.1 points on the GLUE benchmark. Further, it can be trained 34% faster in a few-shot setting, while performing within 0.9 points of adapters. Qualitative analysis shows that different parent cells in SPARTAN specialize in different topics, thus dividing responsibility efficiently.
Abstract（参考訳）: 微調整された事前学習言語モデル(PLM)は、下流タスクで印象的なパフォーマンスを実現し、その結果、そのサイズが大きくなる。タスク毎にモデルの異なるコピーが必要であるため、このパラダイムは携帯電話のようなストレージに制限されたエッジデバイスには適用できない。本稿では,各トランスフォーマー層の後,階層的に構成されたスパースメモリを付加するエッジデバイスのためのパラメータ効率(PE)と計算速度のよいアーキテクチャであるSPARTANを提案する。 SPARTANはPLMパラメータとメモリのみの微細構造を凍結し、異なるタスクのためにPLMバックボーンを再利用することでストレージコストを大幅に削減する。 SPARTANは2つのメモリレベルを含み、入力毎に第1のレベルで選択される親のスパースサブセットのみと、出力表現を計算するために使用される親に対応する子細胞である。このスパーシリティと他のアーキテクチャ最適化を組み合わせることで、PEベースライン(アダプタ)と比較してRaspberry Pi 4での推論中にSPARTANのスループットが90%以上向上し、GLUEベンチマークでは後者よりも0.1ポイント向上した。さらに、数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内に実行することができる。定性的分析により、SPARTANの異なる親細胞は異なるトピックを専門とし、効率的に責任を分割する。

関連論文リスト

DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
Compact Recurrent Transformer with Persistent Memory [16.48606806238812]
Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。高速なCRT(Compact Recurrent Transformer)を提案する。 CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
論文参考訳（メタデータ） (2025-05-02T00:11:44Z)
EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。 We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文参考訳（メタデータ） (2025-03-28T07:26:37Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文参考訳（メタデータ） (2023-01-14T00:07:47Z)
Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。 RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文参考訳（メタデータ） (2022-06-19T23:37:24Z)
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文参考訳（メタデータ） (2022-03-04T02:10:43Z)
Differentiable Random Access Memory using Lattices [0.0]
サイズに関係なく$O(1)$の異なるランダムアクセスメモリモジュールを導入する。設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。
論文参考訳（メタデータ） (2021-07-07T20:55:42Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。