論文の概要: Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints
- arxiv url: http://arxiv.org/abs/2111.10017v1
- Date: Fri, 19 Nov 2021 02:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:04:04.976759
- Title: Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints
- Title(参考訳): Tiny Model Constraints下での視覚変換器におけるクエリ、キー、バリュー埋め込みの再考
- Authors: Jaesin Ahn, Jiuk Hong, Jeongwoo Ju and Heechul Jung
- Abstract要約: ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
セマンティック$Q、K$、および$V$埋め込みの十分な考慮は、性能低下につながるかもしれない。
我々は、$Q$、$K$、$V$埋め込みの3種類の構造を提案する。
- 参考スコア(独自算出の注目度): 3.7660066212240753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vision transformer (ViT) is the dominant model in the computer vision
field. Despite numerous studies that mainly focus on dealing with inductive
bias and complexity, there remains the problem of finding better transformer
networks. For example, conventional transformer-based models usually use a
projection layer for each query (Q), key (K), and value (V) embedding before
multi-head self-attention. Insufficient consideration of semantic $Q, K$, and
$V$ embedding may lead to a performance drop. In this paper, we propose three
types of structures for $Q$, $K$, and $V$ embedding. The first structure
utilizes two layers with ReLU, which is a non-linear embedding for $Q, K$, and
$V$. The second involves sharing one of the non-linear layers to share
knowledge among $Q, K$, and $V$. The third proposed structure shares all
non-linear layers with code parameters. The codes are trainable, and the values
determine the embedding process to be performed among $Q$, $K$, and $V$. Hence,
we demonstrate the superior image classification performance of the proposed
approaches in experiments compared to several state-of-the-art approaches. The
proposed method achieved $71.4\%$ with a few parameters (of $3.1M$) on the
ImageNet-1k dataset compared to that required by the original transformer model
of XCiT-N12 ($69.9\%$). Additionally, the method achieved $93.3\%$ with only
$2.9M$ parameters in transfer learning on average for the CIFAR-10, CIFAR-100,
Stanford Cars datasets, and STL-10 datasets, which is better than the accuracy
of $92.2\%$ obtained via the original XCiT-N12 model.
- Abstract(参考訳): ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
帰納バイアスと複雑性に主に焦点をあてる多くの研究にもかかわらず、より優れたトランスフォーマーネットワークを見つけるという問題が残っている。
例えば、従来のトランスフォーマーベースのモデルは、通常、各クエリ(Q)、キー(K)、値(V)の埋め込みに対して、マルチヘッド自己アテンションの前にプロジェクション層を使用する。
意味的$q、k$、および$v$埋め込みの十分な考慮がなければ、パフォーマンスが低下する可能性がある。
本稿では,$q$,$k$,$v$組込みのための3種類の構造を提案する。
最初の構造はReLUの2つの層を利用しており、これは$Q, K$, $V$の非線形埋め込みである。
2つ目は、$Q、K$、$V$の知識を共有するための非線形レイヤの1つを共有することである。
3つ目の提案された構造は、すべての非線形層をコードパラメータで共有する。
コードはトレーニング可能で、その値は、$Q$、$K$、$V$で実行される埋め込みプロセスを決定する。
そこで本研究では,提案手法が最先端手法に比べて優れた画像分類性能を示す。
提案した手法は、XCiT-N12 (69.9\%$) のトランスフォーマーモデルで要求されるものと比較して、ImageNet-1kデータセット上でいくつかのパラメータ($3.1M$)で71.4\%$を達成した。
さらに、CIFAR-10、CIFAR-100、Stanford Carsデータセット、STL-10データセットの転送学習における平均的なパラメータはわずか2.9M$で93.3\%で、これは元のXCiT-N12モデルによる9.2\%の精度よりも優れている。
関連論文リスト
- Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data [24.1488081067319]
コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
本稿では,2層のソフトマックス(自己)アテンションを持つトランスフォーマーが,各例に$x_i$のトークンに$y_i$がある場合のプロンプトから学習できることを観察する。
論文 参考訳(メタデータ) (2024-02-01T16:39:45Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Provably Efficient Reinforcement Learning with Linear Function
Approximation Under Adaptivity Constraints [94.76881135901753]
一般的な限定的適応モデルとして,バッチ学習モデルとレアポリシースイッチモデルがある。
提案したLSVI-UCB-Batchアルゴリズムは,$tilde O(sqrtd3H3T + dHT/B)$ regretを実現する。
まれなポリシスイッチモデルでは,提案されたLSVI-UCB-RareSwitchアルゴリズムは,$tilde O(sqrtd3H3T[1+T/(dH)]dH/B)$の後悔を享受する。
論文 参考訳(メタデータ) (2021-01-06T18:56:07Z) - Objective-Based Hierarchical Clustering of Deep Embedding Vectors [6.78399939455462]
この研究には、最大450万ドルのエントリを持つデータセットが含まれており、埋め込み次元は2048ドルである。
このような大規模データセットへの階層的クラスタリングのスケールアップという課題に対処するため,新たな実用的階層的クラスタリングアルゴリズムB++&Cを提案する。
人気の高いMoseley-Wang (MW) / Cohen-Addad et alでは、平均で5%/20%改善されている。
(CKMM)目的。
論文 参考訳(メタデータ) (2020-12-15T18:08:34Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。