Fugu-MT 論文翻訳(概要): Attention Isn't All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV Dataset

論文の概要: Attention Isn't All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV Dataset

arxiv url: http://arxiv.org/abs/2601.22161v2
Date: Mon, 02 Feb 2026 11:50:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.144549
Title: Attention Isn't All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV Dataset
Title（参考訳）: 感情認識に必要なのは注意だけではない:EAVデータセット上のドメインの特徴
Authors: Anmol Guragain,
Abstract要約: ベースライントランス(M1)、新しい分解型アテンション機構(M2)、改良型CNNベースライン(M3)の3つのモデルカテゴリを実装した。実験により、洗練された注意機構は小さなデータセットでは一貫して性能が劣っていることが示された。
参考スコア（独自算出の注目度）: 0.2538209532048867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a systematic study of multimodal emotion recognition using the EAV dataset, investigating whether complex attention mechanisms improve performance on small datasets. We implement three model categories: baseline transformers (M1), novel factorized attention mechanisms (M2), and improved CNN baselines (M3). Our experiments show that sophisticated attention mechanisms consistently underperform on small datasets. M2 models achieved 5 to 13 percentage points below baselines due to overfitting and destruction of pretrained features. In contrast, simple domain-appropriate modifications proved effective: adding delta MFCCs to the audio CNN improved accuracy from 61.9% to 65.56% (+3.66pp), while frequency-domain features for EEG achieved 67.62% (+7.62pp over the paper baseline). Our vision transformer baseline (M1) reached 75.30%, exceeding the paper's ViViT result (74.5%) through domain-specific pretraining, and vision delta features achieved 72.68% (+1.28pp over the paper CNN). These findings demonstrate that for small-scale emotion recognition, domain knowledge and proper implementation outperform architectural complexity.
Abstract（参考訳）: EAVデータセットを用いたマルチモーダル感情認識の体系的研究を行い、複雑な注意機構が小さなデータセットの性能を向上させるかどうかを検討する。ベースライン変換器(M1)、新しい分解された注意機構(M2)、改良されたCNNベースライン(M3)の3つのモデルカテゴリを実装した。実験の結果,小型データセットでは高度な注意機構が常に不十分であることがわかった。 M2モデルは、事前訓練された特徴の過度な適合と破壊により、ベースライン以下で5～13ポイントを達成した。デルタMFCCをオーディオCNNに追加すると、精度は61.9%から65.56%(+3.66pp)に向上し、EEGの周波数領域の機能は67.62%(+7.62pp)に達した。我々の視覚トランスフォーマーベースライン(M1)は、ドメイン固有の事前トレーニングを通じて紙のViViT結果(74.5%)を超える75.30%に達し、視覚デルタ機能は72.68%(+1.28pp)に達した。これらの結果は、小規模な感情認識、ドメイン知識、適切な実装がアーキテクチャの複雑さより優れていることを示している。

関連論文リスト

Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets [0.0]
本研究では,COCO画像コーパスの3クラスサブセットを用いた人間の認識について検討する。バイナリビジョン変換器(ViT)は90%の平均テスト精度を達成した。
論文参考訳（メタデータ） (2025-06-13T11:16:50Z)
Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文参考訳（メタデータ） (2025-05-27T15:14:04Z)
An Enhancement of CNN Algorithm for Rice Leaf Disease Image Classification in Mobile Applications [0.0]
本研究では,従来コンボリューショナルニューラルネットワーク(CNN)モデルに頼っていたイネ葉病画像分類アルゴリズムの強化に焦点を当てた。我々は、CNNのローカル特徴抽出とVision Transformersのグローバルコンテキスト学習を統合する軽量モデルであるImageNet-1k weightsを用いて、MobileViTV2_050で転送学習を採用した。このアプローチにより、MobileViTV2_050-Aの分類精度が15.66%向上し、ベースラインデータセットでトレーニングされた最初の拡張モデルが93.14%に達した。
論文参考訳（メタデータ） (2024-12-10T04:41:10Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
One-Shot Learning for Periocular Recognition: Exploring the Effect of Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。 SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文参考訳（メタデータ） (2023-07-11T09:10:16Z)
Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。 ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文参考訳（メタデータ） (2022-07-15T03:27:13Z)
Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-06-20T18:42:44Z)
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文参考訳（メタデータ） (2022-06-19T04:49:35Z)
ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。本稿では,ERNIE-Sparseというモデルを提案する。 i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文参考訳（メタデータ） (2022-03-23T08:47:01Z)
VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文参考訳（メタデータ） (2021-06-24T15:46:54Z)
Understanding the Role of Affect Dimensions in Detecting Emotions from Tweets: A Multi-task Approach [14.725717500450623]
本稿では,感情表現のカテゴリー的モデルと次元的モデルとの相関を利用して主観的分析を行うVADECを提案する。マルチラベル感情分類と多次元感情回帰を共同トレーニングし、タスク間の関連性を活用します。
論文参考訳（メタデータ） (2021-05-09T18:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。