論文の概要: Achieving 3D Attention via Triplet Squeeze and Excitation Block
- arxiv url: http://arxiv.org/abs/2505.05943v1
- Date: Fri, 09 May 2025 10:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.232361
- Title: Achieving 3D Attention via Triplet Squeeze and Excitation Block
- Title(参考訳): Triplet SqueezeとExcitation Blockによる3次元注意獲得
- Authors: Maan Alhazmi, Abdulrahman Altahhan,
- Abstract要約: 本稿では,Tripletの注意とSqueeze-and-Excitation(TripSE)を4つの異なる変種で組み合わせたモデルを提案する。
本稿では、ResNet18、DenseNet、ConvNextアーキテクチャに適用することで、これらの変種の有効性を実証する。
本研究では,これらのCNNモデルにTripSEブロックを組み込むことで,特にConvNeXtアーキテクチャの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of ConvNeXt and its variants has reaffirmed the conceptual and structural suitability of CNN-based models for vision tasks, re-establishing them as key players in image classification in general, and in facial expression recognition (FER) in particular. In this paper, we propose a new set of models that build on these advancements by incorporating a new set of attention mechanisms that combines Triplet attention with Squeeze-and-Excitation (TripSE) in four different variants. We demonstrate the effectiveness of these variants by applying them to the ResNet18, DenseNet and ConvNext architectures to validate their versatility and impact. Our study shows that incorporating a TripSE block in these CNN models boosts their performances, particularly for the ConvNeXt architecture, indicating its utility. We evaluate the proposed mechanisms and associated models across four datasets, namely CIFAR100, ImageNet, FER2013 and AffectNet datasets, where ConvNext with TripSE achieves state-of-the-art results with an accuracy of \textbf{78.27\%} on the popular FER2013 dataset, a new feat for this dataset.
- Abstract(参考訳): ConvNeXtとその変種は、視覚タスクに対するCNNベースのモデルの概念的および構造的適合性を再確認し、画像分類において、特に表情認識(FER)において、それらを重要なプレーヤーとして再確立した。
本稿では,トリプルトアテンションとSqueeze-and-Excitation(TripSE)を4つの異なる変種で組み合わせた新しいアテンション機構を組み込むことにより,これらの進歩に基づいて構築される新しいモデルセットを提案する。
ResNet18,DenseNet,ConvNextの各アーキテクチャに適用して,それらの汎用性と影響を検証することで,これらの変種の有効性を実証する。
本研究では,これらのCNNモデルにTripSEブロックを組み込むことで,特にConvNeXtアーキテクチャの性能が向上することを示す。
CIFAR100, ImageNet, FER2013, AffectNetの4つのデータセットで提案されたメカニズムと関連モデルを評価した。
関連論文リスト
- Residual Feature-Reutilization Inception Network for Image Classification [1.7200496706831436]
特徴情報の効果的取得はコンピュータビジョンの分野において非常に重要である。
本稿では,ResFRI(ResFRI)やSplit-ResFRI(Split-ResFRI)からなる新しいCNNアーキテクチャを提案する。
我々は, モデルサイズが近似的であり, 追加データを使用しないという前提の下で, 他の近代モデルと比較して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-27T03:55:25Z) - MBInception: A new Multi-Block Inception Model for Enhancing Image Processing Efficiency [3.3748750222488657]
本稿では,畳み込みニューラルネットワークフレームワーク内で連続する3つの開始ブロックを用いた,革新的な画像分類モデルを提案する。
モデルとVisual Geometry Group、Residual Network、MobileNetといった確立したアーキテクチャを比較した。
その結果、私たちの新しいモデルは、さまざまなデータセットで一貫してそのモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T10:46:04Z) - AMR Parsing with Causal Hierarchical Attention and Pointers [54.382865897298046]
因果的階層的注意とポインタ機構を備えた新しいAMR解析と新しいモデルCHAPを導入する。
実験の結果, 5つのベンチマークのうち4つのベースラインモデルでは, 追加データがない場合に, ベースラインモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-10-18T13:44:26Z) - An evaluation of pre-trained models for feature extraction in image
classification [0.0]
この研究は、画像分類タスクにおける特徴抽出のために、様々な事前学習ニューラルネットワークの性能を比較することを目的としている。
以上の結果から,CLIP-ResNet50モデルに類似した性能を持つが,可変性が低いCLIP-ViT-BとViT-H-14により,データセットに沿って最高の汎用性能が達成されたことが示唆された。
論文 参考訳(メタデータ) (2023-10-03T13:28:14Z) - CNNs with Multi-Level Attention for Domain Generalization [3.1372269816123994]
深層畳み込みニューラルネットワークは、画像分類とランキングにおいて大きな成功を収めている。
ディープ畳み込みニューラルネットワークは、分散外のシナリオでニューラルネットワークをテストした場合、性能劣化に悩まされる。
本稿では,頑健な分布外画像分類のためのニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-02T10:34:40Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。