論文の概要: Scaling Local Self-Attention For Parameter Efficient Visual Backbones
- arxiv url: http://arxiv.org/abs/2103.12731v1
- Date: Tue, 23 Mar 2021 17:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 16:53:13.074165
- Title: Scaling Local Self-Attention For Parameter Efficient Visual Backbones
- Title(参考訳): パラメータ効率の良い視覚バックボーンのための局所自己注意のスケーリング
- Authors: Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar,
Blake Hechtman, Jonathon Shlens
- Abstract要約: 自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
- 参考スコア(独自算出の注目度): 29.396052798583234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention has the promise of improving computer vision systems due to
parameter-independent scaling of receptive fields and content-dependent
interactions, in contrast to parameter-dependent scaling and
content-independent interactions of convolutions. Self-attention models have
recently been shown to have encouraging improvements on accuracy-parameter
trade-offs compared to baseline convolutional models such as ResNet-50. In this
work, we aim to develop self-attention models that can outperform not just the
canonical baseline models, but even the high-performing convolutional models.
We propose two extensions to self-attention that, in conjunction with a more
efficient implementation of self-attention, improve the speed, memory usage,
and accuracy of these models. We leverage these improvements to develop a new
self-attention model family, \emph{HaloNets}, which reach state-of-the-art
accuracies on the parameter-limited setting of the ImageNet classification
benchmark. In preliminary transfer learning experiments, we find that HaloNet
models outperform much larger models and have better inference performance. On
harder tasks such as object detection and instance segmentation, our simple
local self-attention and convolutional hybrids show improvements over very
strong baselines. These results mark another step in demonstrating the efficacy
of self-attention models on settings traditionally dominated by convolutional
models.
- Abstract(参考訳): セルフアテンションは、コンボリューションのパラメータ依存スケーリングやコンボリューションのコンボリューション依存相互作用とは対照的に、レセプティブフィールドのパラメータ非依存スケーリングとコンボリューション依存相互作用によるコンピュータビジョンシステムの改善を約束する。
セルフアテンションモデルは最近、resnet-50のようなベースライン畳み込みモデルと比較して、精度パラメータトレードオフの改善を奨励していることが示されている。
本研究は,標準ベースラインモデルだけでなく,高パフォーマンス畳み込みモデルにも勝る自己着想モデルを開発することを目的としている。
我々は,より効率的なセルフアテンションの実装とともに,これらのモデルの速度,メモリ使用量,精度を向上させる2つの自己アテンション拡張を提案する。
我々はこれらの改良を活用し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達する新しい自己注意モデルファミリである \emph{HaloNets} を開発する。
予備的な転送学習実験では、HaloNetモデルの方がはるかに大きなモデルより優れ、推論性能が良いことが判明した。
オブジェクト検出やインスタンスセグメンテーションといった難しいタスクでは、単純なローカルなセルフアテンションと畳み込みのハイブリッドが、非常に強力なベースラインに対して改善を示しています。
これらの結果は、伝統的に畳み込みモデルによって支配される設定における自己注意モデルの有効性を示す別のステップである。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。