論文の概要: Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression
- arxiv url: http://arxiv.org/abs/2511.18504v1
- Date: Sun, 23 Nov 2025 15:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.870121
- Title: Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression
- Title(参考訳): エッジビジョンランゲージモデルにおける極端モデル圧縮:スパーステンポラルトケン融合と適応型ニューラル圧縮
- Authors: Md Tasnin Tanvir, Soumitra Das, Sk Md Abidar Rahaman, Ali Shiri Sichani,
- Abstract要約: 2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for edge AI in vision-language tasks requires models that achieve real-time performance on resource-constrained devices with limited power and memory. This paper proposes two adaptive compression techniques -- Sparse Temporal Token Fusion (STTF) and Adaptive Neural Compression (ANC) -- that integrate algorithmic innovations with hardware-aware optimizations. Unlike previous approaches relying on static pruning or uniform scaling, STTF dynamically reuses visual tokens through event-driven change detection, while ANC conditionally activates encoder branches via a learned router, enabling fine-grained adaptation to scene complexity. Our 3B-parameter TinyGPT-STTF achieves CIDEr 131.2, BLEU-4 0.38, METEOR 0.31, and ROUGE-L 0.56 on the COCO 2017 test set, surpassing LLaVA-1.5 7B by 17.6 CIDEr points while using 2.3x fewer parameters and 62x fewer on-device FLOPs. TinyGPT-ANC reaches CIDEr 128.5. On event-based vision tasks, STTF reduces average token count by 84% (from 196 to 31 tokens) while preserving 95.6% accuracy on the DVS128 Gesture dataset, and ANC cuts FLOPs by up to 90% in low-motion scenes. Compared to strong baselines, our models improve accuracy by up to 4.4% and reduce latency by up to 13x. These results enable efficient deployment of capable vision-language models on real-world edge devices.
- Abstract(参考訳): 視覚言語タスクにおけるエッジAIの需要は、限られたパワーとメモリを持つリソース制約のあるデバイスでリアルタイムのパフォーマンスを実現するモデルを必要とする。
本稿では,アルゴリズムの革新とハードウェアを意識した最適化を統合する2つの適応圧縮技術,STTF(Sparse Temporal Token Fusion)とANC(Adaptive Neural Compression)を提案する。
静的プルーニングや均一なスケーリングに依存する従来のアプローチとは異なり、STTFはイベント駆動型変更検出を通じて視覚トークンを動的に再利用する一方、ANCは学習ルータを介してエンコーダブランチを条件付きで起動することで、シーンの複雑さへの微妙な適応を可能にする。
我々の3BパラメータTinyGPT-STTFは、CIDEr 131.2、BLEU-4 0.38、METEOR 0.31、ROUGE-L 0.56をCOCO 2017テストセットで達成し、LLaVA-1.5 7Bを17.6 CIDErポイントで上回り、パラメータは2.3倍、デバイス上のFLOPは62倍少ない。
TinyGPT-ANCはCIDEr 128.5に達する。
イベントベースの視覚タスクでは、STTFは平均トークン数(196から31トークン)を84%削減し、DVS128 Gestureデータセットでは95.6%の精度を維持している。
強いベースラインと比較して、私たちのモデルは精度を4.4%向上し、レイテンシを最大13倍削減します。
これらの結果により、実世界のエッジデバイスに有能な視覚言語モデルの効率的な展開が可能になる。
関連論文リスト
- FastBoost: Progressive Attention with Dynamic Scaling for Efficient Deep Learning [0.0]
CIFARベンチマークで最先端性能を実現するパラメータ効率のよいニューラルアーキテクチャであるFastBoostを提案する。
CIFAR-10:95.57%の精度(0.85Mパラメータ)と93.80%(0.37Mパラメータ)。
拡張MBConvブロックとDSPAを統合することで、FastBoostはCIFAR-10の精度を+3.2ポイント向上し、MobileNetV3の2.1倍のパラメータ削減を実現している。
論文 参考訳(メタデータ) (2025-11-02T17:51:36Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - SparseDiT: Token Sparsification for Efficient Diffusion Transformer [33.91304273754431]
Diffusion Transformers (DiT)は、その優れた生成性能で有名である。
DiTは、自己注意の二次的な複雑さと必要な広範囲なサンプリングステップのために、かなりの計算コストで制約されている。
SparseDiTは空間的および時間的次元にまたがるトークンスペーシフィケーションを実装した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-12-08T18:59:16Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - SeTformer is What You Need for Vision and Language [26.036537788653373]
自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。
SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
論文 参考訳(メタデータ) (2024-01-07T16:52:49Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。