論文の概要: Associative Transformer Is A Sparse Representation Learner
- arxiv url: http://arxiv.org/abs/2309.12862v2
- Date: Thu, 23 Nov 2023 07:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:12:48.366566
- Title: Associative Transformer Is A Sparse Representation Learner
- Title(参考訳): Associative Transformerはスパース表現学習者
- Authors: Yuwei Sun, Hideya Ochiai, Zhirong Wu, Stephen Lin, Ryota Kanai
- Abstract要約: Associative Transformer (AiT) は、ボトルネックの注意を引くために、両方の先行として機能する低ランクな明示的なメモリを誘導する。
AiTはスパース表現学習者であり、入力量や次元の複雑さに不変なボトルネックを通じて、異なる事前を学習することを示す。
- 参考スコア(独自算出の注目度): 26.967506484952214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging from the monolithic pairwise attention mechanism in conventional
Transformer models, there is a growing interest in leveraging sparse
interactions that align more closely with biological principles. Approaches
including the Set Transformer and the Perceiver employ cross-attention
consolidated with a latent space that forms an attention bottleneck with
limited capacity. Building upon recent neuroscience studies of Global Workspace
Theory and associative memory, we propose the Associative Transformer (AiT).
AiT induces low-rank explicit memory that serves as both priors to guide
bottleneck attention in the shared workspace and attractors within associative
memory of a Hopfield network. Through joint end-to-end training, these priors
naturally develop module specialization, each contributing a distinct inductive
bias to form attention bottlenecks. A bottleneck can foster competition among
inputs for writing information into the memory. We show that AiT is a sparse
representation learner, learning distinct priors through the bottlenecks that
are complexity-invariant to input quantities and dimensions. AiT demonstrates
its superiority over methods such as the Set Transformer, Vision Transformer,
and Coordination in various vision tasks.
- Abstract(参考訳): 従来のトランスフォーマーモデルのモノリシックなペアワイズアテンション機構から生まれ、生物学的原理とより密接に一致する疎結合な相互作用を活用することへの関心が高まっている。
セットトランスやパーセプタを含むアプローチでは、潜在空間とクロスアテンションが統合され、限られた容量で注意のボトルネックとなる。
近年のグローバルワークスペース理論と連想記憶の神経科学研究に基づいて,AiT(Associative Transformer)を提案する。
AiTは、共有ワークスペースにおけるボトルネックの注意とホップフィールドネットワークの連想メモリ内のアトラクタを導くために、両方の先行として機能する低ランクな明示メモリを誘導する。
エンドツーエンドの合同トレーニングを通じて、これらの優先順位はモジュールの特殊化を自然に発展させ、それぞれが注意のボトルネックを形成するために異なる帰納的バイアスをもたらします。
ボトルネックは、情報をメモリに書き込む際の入力間の競合を促進する。
AiTはスパース表現学習者であり、入力量や次元に複雑性不変なボトルネックを通じて、異なる事前学習を行う。
AiTは、様々な視覚タスクにおいて、Set Transformer、Vision Transformer、Coordinationなどのメソッドよりも優れていることを示す。
関連論文リスト
- Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
そこで本研究では,原型変圧器のアテンション機構を向上し,性能を向上させるための2つの新しい機構を提案する。
第1のメカニズムは、トレーニング中のトークン類似度行列におけるトークン内関係の優先順位付けを低減し、トークン間焦点を増大させる。
第2のメカニズムは、トークン類似性行列の学習可能な温度チューニングを導入し、固定温度値に関連する過度なスムーシング問題を緩和する。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Knowledge Amalgamation for Object Detection with Transformers [36.7897364648987]
ナレッジ・アマルガメーション (Knowledge Amalgamation, KA) は、数名の訓練を受けた教師から小学生に知識を伝達することを目的とした、新しいディープ・モデル・リユース・タスクである。
我々は,KAをシーケンスレベル・アマルガメーション(SA)とタスクレベル・アマルガメーション(TA)の2つの側面に分解することを提案する。
特に、教師シーケンスを固定サイズのものに冗長に集約する代わりに、教師シーケンスを連結することにより、シーケンスレベルのアマルガメーション内でヒントを生成する。
論文 参考訳(メタデータ) (2022-03-07T07:45:22Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。