論文の概要: FFNet: MetaMixer-based Efficient Convolutional Mixer Design
- arxiv url: http://arxiv.org/abs/2406.02021v2
- Date: Mon, 10 Mar 2025 05:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:25.251301
- Title: FFNet: MetaMixer-based Efficient Convolutional Mixer Design
- Title(参考訳): FFNet: MetaMixerベースの効率的な畳み込みミキサー設計
- Authors: Seokju Yun, Dongheon Lee, Youngmin Ro,
- Abstract要約: 我々は、Fast-Forward Networks (FFNet) のファミリーを提示する。
FFNetは単純な演算子のみで構成されているにもかかわらず、各ドメインにおいて洗練された、高度に専門化されたメソッドよりも優れている。
本稿では,クエリキー値フレームワーク内でのサブオペレーションを規定しない一般的なミキサーアーキテクチャであるMetaMixerを提案する。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License:
- Abstract: Transformer, composed of self-attention and Feed-Forward Network, has revolutionized the landscape of network design across various vision tasks. While self-attention is extensively explored as a key factor in performance, FFN has received little attention. FFN is a versatile operator seamlessly integrated into nearly all AI models to effectively harness rich representations. Recent works also show that FFN functions like key-value memories. Thus, akin to the query-key-value mechanism within self-attention, FFN can be viewed as a memory network, where the input serves as query and the two projection weights operate as keys and values, respectively. Based on these observations, we hypothesize that the importance lies in query-key-value framework itself for competitive performance. To verify this, we propose converting self-attention into a more FFN-like efficient token mixer with only convolutions while retaining query-key-value framework, namely FFNification. Specifically, FFNification replaces query-key-value interactions with large kernel convolutions and adopts GELU activation function instead of softmax. The derived token mixer, FFNified attention, serves as key-value memories for detecting locally distributed spatial patterns, and operates in the opposite dimension to the ConvNeXt block within each corresponding sub-operation of the query-key-value framework. Building upon the above two modules, we present a family of Fast-Forward Networks (FFNet). Despite being composed of only simple operators, FFNet outperforms sophisticated and highly specialized methods in each domain, with notable efficiency gains. These results validate our hypothesis, leading us to propose MetaMixer, a general mixer architecture that does not specify sub-operations within the query-key-value framework.
- Abstract(参考訳): Transformerは、自己注意とフィードフォワードネットワークで構成され、様々なビジョンタスクにわたるネットワークデザインの展望に革命をもたらした。
自己注意はパフォーマンスの重要な要因として広く研究されているが、FFNはほとんど注目されていない。
FFNは、リッチ表現を効果的に活用するために、ほぼすべてのAIモデルにシームレスに統合された汎用演算子である。
最近の研究は、FFNがキー値記憶のような機能を持っていることも示している。
このように、自己アテンション内のクエリキー値機構と同様に、FFNはメモリネットワークとして見ることができ、入力はクエリとして機能し、2つのプロジェクション重みはそれぞれキーと値として動作する。
これらの観測に基づいて、クエリキー値フレームワーク自体が競合性能において重要であると仮定する。
これを検証するために,クエリキー値フレームワーク,すなわちFFNificationを維持しながら,畳み込みのみによるよりFFN的な効率的なトークンミキサに自己アテンションを変換することを提案する。
具体的には、FFNificationはクエリキーと値の相互作用を大きなカーネルの畳み込みに置き換え、ソフトマックスの代わりにGELUアクティベーション関数を採用する。
導出トークンミキサー(FFNified attention)は、局所的な分散空間パターンを検出するキー値メモリとして機能し、クエリキー-値フレームワークの各サブオペレーション内で、ConvNeXtブロックと反対次元で動作する。
上記の2つのモジュールに基づいて、Fast-Forward Networks (FFNet) のファミリーを提示する。
FFNetは単純な演算子のみで構成されているにもかかわらず、各領域において洗練された、高度に専門化されたメソッドよりも優れており、顕著な効率向上がある。
これらの結果は我々の仮説を検証し、クエリキー値フレームワーク内のサブオペレーションを規定しない一般的なミキサーアーキテクチャであるMetaMixerを提案する。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。
我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。
CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-03T04:23:01Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。