Fugu-MT 論文翻訳(概要): Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference

論文の概要: Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference

arxiv url: http://arxiv.org/abs/2405.14700v2
Date: Thu, 29 Aug 2024 09:44:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:57:30.971734
Title: Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference
Title（参考訳）: スパースチューニング:効率的な微調整と推論による視覚変換器の適応
Authors: Ting Liu, Xuyang Liu, Siteng Huang, Liangtao Shi, Zunnan Xu, Yi Xin, Quanjun Yin, Xiaohong Liu,
Abstract要約: textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
参考スコア（独自算出の注目度）: 14.030836300221756
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient fine-tuning (PEFT) has emerged as a popular solution for adapting pre-trained Vision Transformer (ViT) models to downstream applications. While current PEFT methods have achieved parameter efficiency, they overlook the efficiency of computation and GPU memory during both fine-tuning and inference, falling short of practical requirements. In this paper, we propose \textbf{Sparse-Tuning}, a novel PEFT method that accounts for the information redundancy in images and videos to boost the above efficiency. By sparsely preserving the semantic-relevant tokens and merging irrelevant ones, Sparse-Tuning minimizes the quantity of tokens processed at each layer, leading to a quadratic reduction in computational and memory overhead. To align our token sparsification strategy suitably with fine-tuning purposes, we further design Dense Adapters that establish dense connections from shallow layers to deeper layers. These Dense Adapters integrate multi-level local features to enrich the current tokens, improving both token preservation and model adaptation. Empirical results on VTAB-1K, three image datasets, and two video datasets show that our Sparse-Tuning reduces GFLOPs to \textbf{62\%-70\%} of the original ViT-B while achieving state-of-the-art performance. Source code is available at \url{https://github.com/liuting20/Sparse-Tuning}.
Abstract（参考訳）: パラメータ効率のよい微調整(PEFT)は、トレーニング済みの視覚変換器(ViT)モデルを下流アプリケーションに適用するための一般的なソリューションとして登場した。現在のPEFT法はパラメータ効率を達成しているが、微調整と推論の両方において計算とGPUメモリの効率を軽視し、実際的な要件を欠いている。本稿では,画像やビデオにおける情報冗長性を考慮に入れた新しいPEFT手法である \textbf{Sparse-Tuning} を提案する。意味関連トークンをわずかに保存し、無関係トークンをマージすることで、スパースチューニングは各層で処理されるトークンの量を最小化し、計算とメモリオーバーヘッドを2次的に削減する。トークンスペーシフィケーション戦略を微調整の目的に合わせるため、浅い層から深い層への密接な接続を確立するDense Adapterをさらに設計する。これらのDense Adapterは、複数のレベルのローカル機能を統合して、現在のトークンを強化し、トークン保存とモデル適応の両方を改善します。 VTAB-1Kと3つの画像データセット、および2つのビデオデータセットの実証結果から、私たちのスパースチューニングは、GFLOPを、最先端のパフォーマンスを達成しつつ、元のViT-Bの \textbf{62\%-70\%} に還元することを示す。ソースコードは \url{https://github.com/liuting20/Sparse-Tuning} で入手できる。

関連論文リスト

GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。 GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文参考訳（メタデータ） (2025-11-28T07:26:45Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文参考訳（メタデータ） (2025-03-26T04:16:48Z)
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文参考訳（メタデータ） (2025-01-15T05:00:03Z)
Transducer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs [8.26418657158164]
アプローチは、コードプロパティグラフ(CPG)を使用して下流のコードタスクに大規模なモデルを適用するテクニックである。我々のアプローチではTransducerと呼ばれるモジュラーコンポーネントを導入し、CPGからの構造化情報と依存性情報によってコード埋め込みを強化します。その結果,最大99%のトレーニング可能なパラメータを削減し,最大99%のメモリ削減を実現した。
論文参考訳（メタデータ） (2024-12-18T03:25:17Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-09-04T16:06:23Z)
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文参考訳（メタデータ） (2024-08-16T11:27:52Z)
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T10:36:43Z)
PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文参考訳（メタデータ） (2024-07-06T09:04:27Z)
LPViT: Low-Power Semi-structured Pruning for Vision Transformers [43.126752035656196]
画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替手段として、ビジョントランスフォーマーが登場した。 ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文参考訳（メタデータ） (2024-07-02T08:58:19Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。