論文の概要: MetaMixer Is All You Need
- arxiv url: http://arxiv.org/abs/2406.02021v1
- Date: Tue, 4 Jun 2024 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:40:41.948852
- Title: MetaMixer Is All You Need
- Title(参考訳): MetaMixerは必要なものすべて
- Authors: Seokju Yun, Dongheon Lee, Youngmin Ro,
- Abstract要約: Transformerは、自己注意とフィードフォワードネットワークで構成され、様々なビジョンタスクにわたるネットワークデザインの展望に革命をもたらした。
最近の研究は、FFNがキー値記憶のような機能を持っていることも示している。
本稿では,自己注意をよりFFN様の効率的なトークンミキサーに変換することを提案する。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer, composed of self-attention and Feed-Forward Network, has revolutionized the landscape of network design across various vision tasks. FFN is a versatile operator seamlessly integrated into nearly all AI models to effectively harness rich representations. Recent works also show that FFN functions like key-value memories. Thus, akin to the query-key-value mechanism within self-attention, FFN can be viewed as a memory network, where the input serves as query and the two projection weights operate as keys and values, respectively. We hypothesize that the importance lies in query-key-value framework itself rather than in self-attention. To verify this, we propose converting self-attention into a more FFN-like efficient token mixer with only convolutions while retaining query-key-value framework, namely FFNification. Specifically, FFNification replaces query-key and attention coefficient-value interactions with large kernel convolutions and adopts GELU activation function instead of softmax. The derived token mixer, FFNified attention, serves as key-value memories for detecting locally distributed spatial patterns, and operates in the opposite dimension to the ConvNeXt block within each corresponding sub-operation of the query-key-value framework. Building upon the above two modules, we present a family of Fast-Forward Networks. Our FFNet achieves remarkable performance improvements over previous state-of-the-art methods across a wide range of tasks. The strong and general performance of our proposed method validates our hypothesis and leads us to introduce MetaMixer, a general mixer architecture that does not specify sub-operations within the query-key-value framework. We show that using only simple operations like convolution and GELU in the MetaMixer can achieve superior performance.
- Abstract(参考訳): Transformerは、自己注意とフィードフォワードネットワークで構成され、様々なビジョンタスクにわたるネットワークデザインの展望に革命をもたらした。
FFNは、リッチ表現を効果的に活用するために、ほぼすべてのAIモデルにシームレスに統合された汎用演算子である。
最近の研究は、FFNがキー値記憶のような機能を持っていることも示している。
このように、自己アテンション内のクエリキー値機構と同様に、FFNはメモリネットワークとして見ることができ、入力はクエリとして機能し、2つのプロジェクション重みはそれぞれキーと値として動作する。
我々は、クエリキー値フレームワーク自体が自己注意よりも重要であると仮定する。
これを検証するために,クエリキー値フレームワーク,すなわちFFNificationを維持しながら,畳み込みのみによるよりFFN的な効率的なトークンミキサに自己アテンションを変換することを提案する。
具体的には、FFNificationはクエリキーとアテンション係数-値の相互作用を大きなカーネル畳み込みに置き換え、ソフトマックスの代わりにGELUアクティベーション関数を採用する。
導出トークンミキサー(FFNified attention)は、局所的な分散空間パターンを検出するキー値メモリとして機能し、クエリキー-値フレームワークの各サブオペレーション内で、ConvNeXtブロックと反対次元で動作する。
上記の2つのモジュールに基づいて、ファストフォワードネットワークのファミリーを提示する。
我々のFFNetは、様々なタスクにわたる従来の最先端手法よりも顕著なパフォーマンス向上を実現しています。
提案手法の強大かつ一般的な性能は,我々の仮説を検証し,クエリキー値フレームワーク内でのサブオペレーションを規定しない一般ミキサーアーキテクチャであるMetaMixerを導入することにつながる。
畳み込みやGELUのような単純な操作のみをMetaMixerで使用すると、優れた性能が得られることを示す。
関連論文リスト
- Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。
我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。
CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-03T04:23:01Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - Learning A Sparse Transformer Network for Effective Image Deraining [42.01684644627124]
有効デレインネットワークであるスパーストランス(DRSformer)を提案する。
学習可能なトップk選択演算子を開発し、各クエリのキーから最も重要な注意点を適応的に保持し、より優れた機能アグリゲーションを実現する。
我々は,協調改良デライン方式を示すために,専門家による特徴補償器を混合したモデルを開発した。
論文 参考訳(メタデータ) (2023-03-21T15:41:57Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。