Fugu-MT 論文翻訳(概要): Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space

論文の概要: Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space

arxiv url: http://arxiv.org/abs/2201.00814v1
Date: Mon, 3 Jan 2022 18:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-04 13:02:53.534451
Title: Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space
Title（参考訳）: vision transformer slimming: 連続最適化空間における多次元探索
Authors: Arnav Chavan and Zhiqiang Shen and Zhuang Liu and Zechun Liu and Kwang-Ting Cheng and Eric Xing
Abstract要約: 複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
参考スコア（独自算出の注目度）: 35.04846842178276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the feasibility of finding an optimal sub-model from a vision transformer and introduces a pure vision transformer slimming (ViT-Slim) framework that can search such a sub-structure from the original model end-to-end across multiple dimensions, including the input tokens, MHSA and MLP modules with state-of-the-art performance. Our method is based on a learnable and unified l1 sparsity constraint with pre-defined factors to reflect the global importance in the continuous searching space of different dimensions. The searching process is highly efficient through a single-shot training scheme. For instance, on DeiT-S, ViT-Slim only takes ~43 GPU hours for searching process, and the searched structure is flexible with diverse dimensionalities in different modules. Then, a budget threshold is employed according to the requirements of accuracy-FLOPs trade-off on running devices, and a re-training process is performed to obtain the final models. The extensive experiments show that our ViT-Slim can compress up to 40% of parameters and 40% FLOPs on various vision transformers while increasing the accuracy by ~0.6% on ImageNet. We also demonstrate the advantage of our searched models on several downstream datasets. Our source code will be publicly available.
Abstract（参考訳）: 本稿では,視覚トランスフォーマから最適なサブモデルを見つけ出す可能性について検討し,入力トークン,mhsa,mlpモジュールを含む多次元にわたってそのサブ構造を探索可能なpure vision transformer slimming (vit-slim)フレームワークを導入する。本手法は,学習可能で統一されたl1スパーシティ制約に基づき,異なる次元の連続探索空間における大域的重要性を反映する。探索過程は単発訓練方式により極めて効率的である。例えば、DeiT-Sでは、ViT-Slimは探索に43時間程度しかかからず、探索された構造は異なるモジュールの様々な次元で柔軟である。そして、動作装置上での精度FLOPsトレードオフの要求に応じて予算しきい値を使用し、最終モデルを得るための再訓練処理を行う。広範にわたる実験により,vit-slimは各種視覚トランスフォーマー上で最大40%のパラメータと40%のフラップを圧縮でき,imagenetでは約0.6%の精度向上が達成できた。また、いくつかのダウンストリームデータセットで検索したモデルの利点を実証する。ソースコードは公開される予定だ。

関連論文リスト

Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。 MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文参考訳（メタデータ） (2024-12-16T21:14:11Z)
ED-ViT: Splitting Vision Transformer for Distributed Inference on Edge Devices [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑なモデルを効率的に実行するための新しいビジョントランスフォーマー分割フレームワークED-ViTを提案する。具体的には、Vision Transformerモデルをいくつかのサブモデルに分割し、各サブモデルはデータクラスの特定のサブセットを処理するように調整します。 3つのモデル構造を持つ5つのデータセットに対して広範な実験を行い、エッジデバイスにおける推論遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2024-10-15T14:38:14Z)
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T13:39:28Z)
Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。 1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文参考訳（メタデータ） (2022-03-24T02:26:04Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。