論文の概要: Local Multi-Head Channel Self-Attention for Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2111.07224v2
- Date: Thu, 18 Nov 2021 17:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:17:00.127526
- Title: Local Multi-Head Channel Self-Attention for Facial Expression
Recognition
- Title(参考訳): 表情認識のための局所的マルチヘッドチャネル自己認識
- Authors: Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo
- Abstract要約: 本稿では,ほぼすべての畳み込みニューラルネットワークに容易に統合可能な,新しい自己認識モジュールを提案する。
LHCは2つの主要な考え方に基づいている: まず、コンピュータビジョンにおいて、自己注意パラダイムを利用する最良の方法は、より探索された空間的注意ではなく、チャネルワイドな応用であると考えている。
LHC-Netを使用することで、有名なFER2013データセットにおける新たな最先端の達成に成功しました。
- 参考スコア(独自算出の注目度): 1.7792264784100689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the Transformer architecture was introduced in 2017 there has been many
attempts to bring the self-attention paradigm in the field of computer vision.
In this paper we propose a novel self-attention module that can be easily
integrated in virtually every convolutional neural network and that is
specifically designed for computer vision, the LHC: Local (multi) Head Channel
(self-attention). LHC is based on two main ideas: first, we think that in
computer vision the best way to leverage the self-attention paradigm is the
channel-wise application instead of the more explored spatial attention and
that convolution will not be replaced by attention modules like recurrent
networks were in NLP; second, a local approach has the potential to better
overcome the limitations of convolution than global attention. With LHC-Net we
managed to achieve a new state of the art in the famous FER2013 dataset with a
significantly lower complexity and impact on the "host" architecture in terms
of computational cost when compared with the previous SOTA.
- Abstract(参考訳): 2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョンの分野で自己注意パラダイムを導入する試みが数多く行われている。
本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。
第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。
lhc-net では,これまでの sota と比較した場合の計算コストの観点から,複雑性と "ホスト" アーキテクチャへの影響を大幅に低減した,有名な fer2013 データセット の新たな最先端を実現することができました。
関連論文リスト
- A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Local Slot Attention for Vision-and-Language Navigation [30.705802302315785]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、コンピュータビジョンと自然言語処理コミュニティにおいてホットな話題である。
同一オブジェクトのセグメンテーションからの情報を取り込むためのスロットアテンションに基づくモジュールを提案する。
R2Rデータセットの実験は、我々のモデルが最先端の結果を達成したことを示している。
論文 参考訳(メタデータ) (2022-06-17T09:21:26Z) - Visual Attention Emerges from Recurrent Sparse Reconstruction [82.78753751860603]
本稿では,人間の視覚的注意機構の2つの特徴,すなわち再発と空間性に基づく新しい注意形態について述べる。
自己注意は単一ステップの最適化と空間制約のないVARSの特殊な場合であることを示す。
VARSは、一般的な視覚変換器における自己注意の代替として容易に利用でき、様々なベンチマークでその堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2022-04-23T00:35:02Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CMRNet++: Map and Camera Agnostic Monocular Visual Localization in LiDAR
Maps [10.578312278413199]
CMRNet++は、新しい場所を効果的に一般化するより堅牢なモデルであり、カメラパラメータとは独立している。
我々は,全く新しい環境下での学習や微調整を行なわず,高精度なローカライズが可能な深層学習手法を実証する。
論文 参考訳(メタデータ) (2020-04-20T10:10:14Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。