論文の概要: Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2204.07780v1
- Date: Sat, 16 Apr 2022 11:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:14:26.859158
- Title: Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks
- Title(参考訳): 視覚言語タスクのためのグループ変換による軽量トランスフォーマーの開発
- Authors: Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yan Wang, Liujuan Cao, Yongjian Wu,
Feiyue Huang, Rongrong Ji
- Abstract要約: 本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 126.33843752332139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the exciting performance, Transformer is criticized for its excessive
parameters and computation cost. However, compressing Transformer remains as an
open problem due to its internal complexity of the layer designs, i.e.,
Multi-Head Attention (MHA) and Feed-Forward Network (FFN). To address this
issue, we introduce Group-wise Transformation towards a universal yet
lightweight Transformer for vision-and-language tasks, termed as
LW-Transformer. LW-Transformer applies Group-wise Transformation to reduce both
the parameters and computations of Transformer, while also preserving its two
main properties, i.e., the efficient attention modeling on diverse subspaces of
MHA, and the expanding-scaling feature transformation of FFN. We apply
LW-Transformer to a set of Transformer-based networks, and quantitatively
measure them on three vision-and-language tasks and six benchmark datasets.
Experimental results show that while saving a large number of parameters and
computations, LW-Transformer achieves very competitive performance against the
original Transformer networks for vision-and-language tasks. To examine the
generalization ability, we also apply our optimization strategy to a recently
proposed image Transformer called Swin-Transformer for image classification,
where the effectiveness can be also confirmed
- Abstract(参考訳): 素晴らしい性能にもかかわらず、Transformerはその過剰なパラメータと計算コストで批判されている。
しかしながら、圧縮トランスは層設計の内部複雑さ、すなわちマルチヘッドアテンション(mha)とフィードフォワードネットワーク(ffn)のため、オープンな問題として残されている。
この問題に対処するために、LW-Transformerと呼ばれる視覚・言語タスクのための普遍的で軽量なTransformerに対するグループワイズ変換を導入する。
lw-transformerは、トランスフォーマのパラメータと計算量を減らすためにグループ変換を適用し、mhaの多様な部分空間上の効率的な注意モデリングとffnの拡張スケーリング機能変換という2つの主な特性を維持している。
我々は、lw変換器をトランスフォーマネットワークの集合に適用し、3つの視覚言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
一般化能力を検討するため,最近提案されたSwin-Transformerと呼ばれる画像変換器に最適化戦略を適用し,その有効性を確認する。
関連論文リスト
- Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。