論文の概要: big.LITTLE Vision Transformer for Efficient Visual Recognition
- arxiv url: http://arxiv.org/abs/2410.10267v1
- Date: Mon, 14 Oct 2024 08:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:05:09.593886
- Title: big.LITTLE Vision Transformer for Efficient Visual Recognition
- Title(参考訳): big.LITTLE Vision Transformer for Efficient Visual Recognition
- Authors: He Guo, Yulong Wang, Zixuan Ye, Jifeng Dai, Yuwen Xiong,
- Abstract要約: big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
- 参考スコア(独自算出の注目度): 34.015778625984055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the big.LITTLE Vision Transformer, an innovative architecture aimed at achieving efficient visual recognition. This dual-transformer system is composed of two distinct blocks: the big performance block, characterized by its high capacity and substantial computational demands, and the LITTLE efficiency block, designed for speed with lower capacity. The key innovation of our approach lies in its dynamic inference mechanism. When processing an image, our system determines the importance of each token and allocates them accordingly: essential tokens are processed by the high-performance big model, while less critical tokens are handled by the more efficient little model. This selective processing significantly reduces computational load without sacrificing the overall performance of the model, as it ensures that detailed analysis is reserved for the most important information. To validate the effectiveness of our big.LITTLE Vision Transformer, we conducted comprehensive experiments on image classification and segment anything task. Our results demonstrate that the big.LITTLE architecture not only maintains high accuracy but also achieves substantial computational savings. Specifically, our approach enables the efficient handling of large-scale visual recognition tasks by dynamically balancing the trade-offs between performance and efficiency. The success of our method underscores the potential of hybrid models in optimizing both computation and performance in visual recognition tasks, paving the way for more practical and scalable deployment of advanced neural networks in real-world applications.
- Abstract(参考訳): 本稿では,効率的な視覚認識を実現するための革新的なアーキテクチャであるBig.LITTLE Vision Transformerを紹介する。
この二重変圧器システムは2つの異なるブロックで構成されており、大きな性能ブロックは高いキャパシティと相当な計算要求を特徴とし、LITTLE効率ブロックは低いキャパシティを持つ速度のために設計されている。
このアプローチの重要な革新は、その動的推論メカニズムにあります。
本システムでは,画像の処理において,各トークンの重要性を判定し,それに応じて,重要なトークンを高性能なビッグモデルで処理し,クリティカルなトークンをより効率的な小さなモデルで処理する。
この選択処理は、最も重要な情報に対して詳細な解析が予約されていることを保証するため、モデル全体の性能を犠牲にすることなく、計算負荷を大幅に削減する。
LITTLE Vision Transformerの有効性を検証するため,画像分類とタスク分割に関する総合的な実験を行った。
以上の結果から,大きな.LITTLEアーキテクチャは高い精度を維持するだけでなく,計算量を大幅に削減できることが示唆された。
具体的には、性能と効率のトレードオフを動的にバランスさせることにより、大規模視覚認識タスクの効率的な処理を可能にする。
我々の手法の成功は、ビジュアル認識タスクにおける計算と性能の最適化におけるハイブリッドモデルの可能性を強調し、現実のアプリケーションにおける高度なニューラルネットワークのより実用的でスケーラブルな展開の道を開いた。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression [4.034679618136641]
運転者表情認識(DFER)の既存の手法は、しばしば計算集約的であり、リアルタイムアプリケーションには適さない。
本稿では、計算効率と精度をエレガントに組み合わせたShuffViT-DFERという、トランスファー学習に基づく新しいデュアルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-05T11:39:43Z) - Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Hierarchical Residual Attention Network for Single Image
Super-Resolution [2.0571256241341924]
本稿では,残差特徴と注意集約の効率的な手法に基づく新しい軽量超解像モデルを提案する。
提案アーキテクチャは,比較的少ない計算量とメモリフットプリントを維持しながら,いくつかのデータセットにおける最先端性能を上回る。
論文 参考訳(メタデータ) (2020-12-08T17:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。