論文の概要: PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context
- arxiv url: http://arxiv.org/abs/2410.17661v1
- Date: Wed, 23 Oct 2024 08:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:54.993904
- Title: PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context
- Title(参考訳): PETAH:資源限定文脈におけるハイブリッド変圧器のパラメータ効率的なタスク適応
- Authors: Maximilian Augustin, Syed Shakib Sarwar, Mostafa Elhoushi, Sai Qian Zhang, Yuecheng Li, Barbara De Salvo,
- Abstract要約: 本稿では,Hybrid Transformer のタスク適応性能向上と PETAH: Efficient Task Adaptation for Hybrid Transformer の導入について述べる。
我々のPETAH適応ハイブリッドモデルは、パラメータを少なくし、モバイルハードウェアでより効率的であると同時に、ViTのタスク適応技術よりも優れています。
- 参考スコア(独自算出の注目度): 9.235131774252416
- License:
- Abstract: Following their success in natural language processing (NLP), there has been a shift towards transformer models in computer vision. While transformers perform well and offer promising multi-tasking performance, due to their high compute requirements, many resource-constrained applications still rely on convolutional or hybrid models that combine the benefits of convolution and attention layers and achieve the best results in the sub 100M parameter range. Simultaneously, task adaptation techniques that allow for the use of one shared transformer backbone for multiple downstream tasks, resulting in great storage savings at negligible cost in performance, have not yet been adopted for hybrid transformers. In this work, we investigate how to achieve the best task-adaptation performance and introduce PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers. We further combine PETAH adaptation with pruning to achieve highly performant and storage friendly models for multi-tasking. In our extensive evaluation on classification and other vision tasks, we demonstrate that our PETAH-adapted hybrid models outperform established task-adaptation techniques for ViTs while requiring fewer parameters and being more efficient on mobile hardware.
- Abstract(参考訳): 自然言語処理(NLP)の成功に続いて、コンピュータビジョンにおけるトランスフォーマーモデルへの移行が進んでいる。
トランスフォーマーの性能は良好であり、有望なマルチタスク性能を提供するが、高い計算要求のため、多くのリソース制約のあるアプリケーションは、畳み込み層とアテンション層の利点を組み合わせた畳み込みモデルやハイブリッドモデルに依存している。
同時に、複数のダウンストリームタスクに1つの共有トランスフォーマーバックボーンを使用できるタスク適応技術は、性能的に無視できるコストで大きなストレージ節約をもたらすが、ハイブリッドトランスでは、まだ採用されていない。
本研究では,Hybrid Transformer のためのパラメータ効率の良いタスク適応手法である PETAH を導入し,最適なタスク適応性能を実現する方法について検討する。
我々はさらにPETAH適応とプルーニングを組み合わせることで、マルチタスクのための高性能かつストレージフレンドリーなモデルを実現する。
分類や視覚タスクの広範な評価において、我々のPETAH適応ハイブリッドモデルは、より少ないパラメータを必要とせず、モバイルハードウェア上でより効率的であると同時に、確立されたタスク適応技術よりも優れていることを示した。
関連論文リスト
- ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Selective Feature Adapter for Dense Vision Transformers [30.409313135985528]
選択的機能アダプタ(SFA)は、様々な密集タスクにわたる完全な微調整モデルよりも同等または優れたパフォーマンスを達成する。
SFAは外部アダプタと内部アダプタで構成され、トランスフォーマーモデル上で順次操作される。
実験により、双対アダプタモジュールであるSFAは、高密度視覚タスクにおける最良のトレードオフを達成するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-10-03T07:17:58Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems [23.261607952479377]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-03-22T13:41:22Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。