論文の概要: Activator: GLU Activation Function as the Core Component of a Vision Transformer
- arxiv url: http://arxiv.org/abs/2405.15953v3
- Date: Sat, 26 Jul 2025 21:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.187489
- Title: Activator: GLU Activation Function as the Core Component of a Vision Transformer
- Title(参考訳): アクティベータ:視覚変換器のコアコンポーネントとしてのGLU活性化関数
- Authors: Abdullah Nazhat Abdullah, Tarkan Aydin,
- Abstract要約: 本稿では, 線形単位(GLU)アクティベーション関数構造を組み込んだ変圧器アーキテクチャにおいて, 計算コストの削減を目的とした置換・注目機構について検討する。
この研究の目的は、GLUベースを広く活用することであり、トランスフォーマーアーキテクチャ設計のコアコンポーネントとして、従来のビジョンとアテンション機構に、より効率的で有能な代替手段を確立することである。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture has driven many successes in a variety of tasks within the field of deep learning, in particular the recent advances in natural language processing (NLP) culminating with large language models (LLM). Adding to that success, transformer architecture has found widespread interest from computer vision (CV) researchers and practitioners, allowing for many advancements in vision-related tasks and opening the door for multitask and multi-modal deep learning architectures that share the same principle of operation. One drawback to these architectures is their reliance on the scaled dot product attention mechanism with the softmax activation function, which is computationally expensive and requires large compute capabilities for both training and inference. This paper investigates substituting the MLP and attention mechanism usually adopted for transformer architecture with an architecture based on incorporating a gated linear unit (GLU) activation function structure with the aim of reducing the computational cost. The equalized experimental assessments conducted in this work show that the proposed modification with the targeted reductions in computational complexity offers competitive performance compared to the selected baseline architectures. The results are significantly in support of the aims of this work, in which the focus was to extensively utilize GLU-based MLPs, establishing a more efficient but capable alternative to the traditional MLP and the attention mechanism as the core component in the design of transformer architectures.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、ディープラーニング分野における様々なタスク、特に最近の自然言語処理(NLP)における大きな言語モデル(LLM)の進歩において、多くの成功を導いている。
この成功に加え、トランスフォーマーアーキテクチャはコンピュータビジョン(CV)の研究者や実践者から広く関心を集めており、視覚関連タスクの多くの進歩を可能にし、同じ操作原理を共有するマルチタスクおよびマルチモーダルディープラーニングアーキテクチャの扉を開くことができる。
これらのアーキテクチャの欠点の1つは、ソフトマックスアクティベーション機能を備えたスケールドドット製品アテンション機構に依存している点である。
本稿では,計算コスト削減を目的としたゲート線形単位(GLU)アクティベーション関数構造を組み込んだアーキテクチャを,トランスフォーマーアーキテクチャに適用したMLPとアテンション機構の代替として検討する。
本研究で行った等化実験により,計算複雑性の低減を目標とした修正により,選択したベースラインアーキテクチャと比較して競争性能が向上したことが示された。
この研究の目的は、GLUベースのMLPを広く活用することであり、トランスフォーマーアーキテクチャ設計のコアコンポーネントとして、従来のMLPよりも効率的だが有能な代替手段を確立することである。
関連論文リスト
- Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
大規模なニューラルネットワークは予測タスクに優れるが、タンパク質工学や材料発見といった設計問題への応用には、オフラインモデルベース最適化(MBO)の問題を解決する必要がある。
機能的グラフィカルモデル(FGM)を用いてブラックボックス関数の構造を学習するトランスフォーマーベースのアーキテクチャであるCliqueformerを提案する。
化学および遺伝子設計タスクを含む様々な領域において、Cliqueformerは既存の方法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-17T00:35:47Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文 参考訳(メタデータ) (2024-06-10T15:24:15Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。