論文の概要: Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures
- arxiv url: http://arxiv.org/abs/2303.16100v1
- Date: Sat, 25 Mar 2023 14:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-29 14:32:50.491070
- Title: Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures
- Title(参考訳): 異種メモリアーキテクチャを用いたnlpエッジ推論のための省エネルギータスク適応
- Authors: Zirui Fu, Aleksandre Avaliani, Marco Donato
- Abstract要約: Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
- 参考スコア(独自算出の注目度): 68.91874045918112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executing machine learning inference tasks on resource-constrained edge
devices requires careful hardware-software co-design optimizations. Recent
examples have shown how transformer-based deep neural network models such as
ALBERT can be used to enable the execution of natural language processing (NLP)
inference on mobile systems-on-chip housing custom hardware accelerators.
However, while these existing solutions are effective in alleviating the
latency, energy, and area costs of running single NLP tasks, achieving
multi-task inference requires running computations over multiple variants of
the model parameters, which are tailored to each of the targeted tasks. This
approach leads to either prohibitive on-chip memory requirements or paying the
cost of off-chip memory access. This paper proposes adapter-ALBERT, an
efficient model optimization for maximal data reuse across different tasks. The
proposed model's performance and robustness to data compression methods are
evaluated across several language tasks from the GLUE benchmark. Additionally,
we demonstrate the advantage of mapping the model to a heterogeneous on-chip
memory architecture by performing simulations on a validated NLP edge
accelerator to extrapolate performance, power, and area improvements over the
execution of a traditional ALBERT model on the same hardware platform.
- Abstract(参考訳): リソース制約のあるエッジデバイス上で機械学習推論タスクを実行するには、注意深いハードウェアとソフトウェアの共同設計最適化が必要だ。
最近の例では、ALBERTのようなトランスフォーマーベースのディープニューラルネットワークモデルを使用して、モバイルシステム上での自然言語処理(NLP)推論の実行を可能にする方法が示されている。
しかしながら、これらの既存のソリューションは単一のnlpタスクの実行のレイテンシ、エネルギー、面積コストの軽減に効果的であるが、マルチタスク推論を実現するには、対象とするタスク毎に調整されたモデルパラメータの複数の変種で計算を実行する必要がある。
このアプローチはオンチップのメモリ要求を禁ずるか、オフチップメモリアクセスのコストを支払うかのいずれかにつながる。
本稿では,タスク間の最大データ再利用のための効率的なモデル最適化であるAdapter-ALBERTを提案する。
提案したモデルの性能とデータ圧縮手法の堅牢性は,GLUEベンチマークから複数の言語タスクにわたって評価される。
さらに、検証済みのNLPエッジアクセラレータ上でシミュレーションを行い、同じハードウェアプラットフォーム上での従来のALBERTモデルの実行に対する性能、パワー、面積の改善を概説することで、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を示す。
関連論文リスト
- ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Attention-Based Model and Deep Reinforcement Learning for Distribution
of Event Processing Tasks [0.0]
イベント処理は、動的でレスポンシブなモノのインターネット(IoT)の基盤である
本稿では,タスクを公平に分散するためのディープラーニングの利用について検討する。
効率的な負荷分散ソリューションを生成するために,注目に基づくニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:16:35Z) - ExPAN(N)D: Exploring Posits for Efficient Artificial Neural Network
Design in FPGA-based Systems [4.2612881037640085]
本稿では,ANNに対するポジット数表現方式の有効性と不動点演算の実装効率を解析し,比較する。
本稿では,ANNのための高性能かつ省エネなハードウェア実装を実現するための,新しい固定点変換器Posit to Fix-pointを提案する。
論文 参考訳(メタデータ) (2020-10-24T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。