論文の概要: LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons
- arxiv url: http://arxiv.org/abs/2511.00812v1
- Date: Sun, 02 Nov 2025 05:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.947568
- Title: LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons
- Title(参考訳): LL-ViT: テーブルニューロンをルックアップしたエッジ展開可能な視覚変換器
- Authors: Shashank Nag, Alan T. L. Bacellar, Zachary Susskind, Anshul Jha, Logan Liberty, Aishwarya Sivakumar, Eugene B. John, Krishnan Kailas, Priscila M. V. Lima, Neeraja J. Yadwadkar, Felipe M. G. Franca, Lizy K. John,
- Abstract要約: ビジョントランスフォーマーはコンピュータビジョンタスクで非常に成功しています。
大規模計算、メモリ、エネルギー要求はFPGAにおけるエッジ推論の課題である。
本稿では,新しいエッジ最適化型視覚変換器であるLL-ViTを提案する。
- 参考スコア(独自算出の注目度): 1.213604453116022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have been tremendously successful in computer vision tasks. However, their large computational, memory, and energy demands are a challenge for edge inference on FPGAs -- a field that has seen a recent surge in demand. We recognize the benefits of recent works on logic and Look Up Table (LUT) based networks, such as LogicNets, NeuraLUT, DWN, among others, in offering models that simultaneously reduce both the memory and compute footprints. However, these models natively do not perform well on common vision tasks, such as CIFAR-10/100. In this work, we propose LL-ViT, a novel edge optimized vision transformer design that integrates layers of LUT neurons within the transformer architecture. Based on our characterization that reveals that a majority of model weights and computations are from the channel mixer (MLP layer), we design an alternate LUT-based channel mixer, and simultaneously develop an FPGA-based accelerator for LL-ViT. Contrary to some attempts to replace each multiplication with a table lookup, our architecture utilizes a neural learning approach which natively learns the LUT functions. This approach allows for reduced model sizes, and a computational and energy-efficient inference solution for vision transformer models. Evaluating on edge-suitable workloads, we achieve accuracies of 95.5% on CIFAR-10, 78.8% on CIFAR-100, and 60.9% on Tiny-ImageNet datasets, comparable to the baseline transformer. LL-ViT eliminates over 60% of the model weights and 50% of the multiplications in the model, and achieves 1.9x energy efficiency and 1.3x lower latency over an integer quantized ViT accelerator, while also offering superior throughput against prior works at a 10.9W power budget.
- Abstract(参考訳): ビジョントランスフォーマーはコンピュータビジョンタスクで非常に成功しています。
しかし、その大規模な計算、メモリ、エネルギー需要はFPGAのエッジ推論の課題である。
我々はLogicNets、NeuraLUT、DWNなど、論理とLook Up Table(LUT)ベースのネットワークに関する最近の研究の利点を認識し、メモリと計算フットプリントの両方を同時に削減するモデルを提供する。
しかし、これらのモデルは、CIFAR-10/100のような一般的なビジョンタスクでは、ネイティブにうまく機能しない。
本研究では,LUTニューロンの層をトランスアーキテクチャに組み込んだ新しいエッジ最適化型視覚変換器であるLL-ViTを提案する。
モデル重みと計算の大部分がチャネルミキサー(MLP層)からのものであることを示す特徴から,LUTベースのチャネルミキサーを設計し,同時にLL-ViT用のFPGAベースのアクセラレータを開発する。
それぞれの乗算をテーブルルックアップに置き換える試みとは対照的に,我々のアーキテクチャでは,LUT関数をネイティブに学習するニューラルネットワークアプローチを採用している。
このアプローチは、モデルサイズを縮小し、ビジョントランスモデルに対する計算とエネルギー効率の推論ソリューションを可能にする。
CIFAR-10では95.5%、CIFAR-100では78.8%、Tiny-ImageNetデータセットでは60.9%の精度を達成した。
LL-ViTはモデル重量の60%以上と乗算の50%を排除し、整数量子化ViT加速器よりも1.9倍のエネルギー効率と1.3倍のレイテンシを実現し、10.9Wの電力予算で以前の処理よりも優れたスループットを提供する。
関連論文リスト
- Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - TransAxx: Efficient Transformers with Approximate Computing [11.8440256799336]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。
本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。
提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文 参考訳(メタデータ) (2024-02-12T10:16:05Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - ViTA: A Vision Transformer Inference Accelerator for Edge Applications [4.3469216446051995]
ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
論文 参考訳(メタデータ) (2023-02-17T19:35:36Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。