論文の概要: Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer
- arxiv url: http://arxiv.org/abs/2404.17205v2
- Date: Mon, 29 Apr 2024 02:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:29:16.750897
- Title: Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer
- Title(参考訳): 2 in 1 Go:デカップリング型主語変換器を用いた単段階感情認識
- Authors: Xinpeng Li, Teng Wang, Jian Zhao, Shuyi Mao, Jinbao Wang, Feng Zheng, Xiaojiang Peng, Xuelong Li,
- Abstract要約: 単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 78.35816158511523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotion recognition aims to discern the emotional state of subjects within an image, relying on subject-centric and contextual visual cues. Current approaches typically follow a two-stage pipeline: first localize subjects by off-the-shelf detectors, then perform emotion classification through the late fusion of subject and context features. However, the complicated paradigm suffers from disjoint training stages and limited interaction between fine-grained subject-context elements. To address the challenge, we present a single-stage emotion recognition approach, employing a Decoupled Subject-Context Transformer (DSCT), for simultaneous subject localization and emotion classification. Rather than compartmentalizing training stages, we jointly leverage box and emotion signals as supervision to enrich subject-centric feature learning. Furthermore, we introduce DSCT to facilitate interactions between fine-grained subject-context cues in a decouple-then-fuse manner. The decoupled query token--subject queries and context queries--gradually intertwine across layers within DSCT, during which spatial and semantic relations are exploited and aggregated. We evaluate our single-stage framework on two widely used context-aware emotion recognition datasets, CAER-S and EMOTIC. Our approach surpasses two-stage alternatives with fewer parameter numbers, achieving a 3.39% accuracy improvement and a 6.46% average precision gain on CAER-S and EMOTIC datasets, respectively.
- Abstract(参考訳): 感情認識は、イメージ内の被験者の感情状態を、主観的・文脈的な視覚的手がかりに依存して識別することを目的としている。
現在のアプローチは典型的には2段階のパイプラインに従っており、まず被験者を棚外の検出器でローカライズし、その後、被写体と文脈の特徴の後期融合を通じて感情分類を行う。
しかし、複雑なパラダイムは、相容れない訓練段階と、微粒な主語-文脈要素間の限定的な相互作用に悩まされている。
この課題に対処するため、単段階の感情認識アプローチとして、DCT(Decoupled Subject-Context Transformer)を用いて、同時主題の局所化と感情分類を行う。
学習段階の区分化ではなく,ボックス信号と感情信号を協調的に活用し,主観的特徴学習を充実させる。
さらに、DSCTを導入して、細粒度な主語-文脈間の相互作用を、分離・テーマ-フューズ方式で促進する。
分離されたクエリトークン--オブジェクトクエリとコンテキストクエリ--DSCT内の層に徐々に介入し、空間的および意味的関係を利用して集約する。
広範に使われている2つの文脈認識型感情認識データセットであるCAER-SとEMOTIC上での単一ステージフレームワークの評価を行った。
提案手法は,CAER-SデータセットとEMOTICデータセットでそれぞれ平均6.46%の精度向上と3.39%の精度向上を実現している。
関連論文リスト
- Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - When Facial Expression Recognition Meets Few-Shot Learning: A Joint and
Alternate Learning Framework [60.51225419301642]
実践シナリオにおける人間の感情の多様性に対応するために,感情ガイド型類似ネットワーク(EGS-Net)を提案する。
EGS-Netは2段階の学習フレームワークに基づいた感情ブランチと類似性ブランチで構成されている。
In-the-labとin-the-wildの複合表現データセットの実験結果から,提案手法がいくつかの最先端手法に対して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-18T07:24:12Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - DialogueTRM: Exploring the Intra- and Inter-Modal Emotional Behaviors in
the Conversation [20.691806885663848]
そこで我々は,対話トランスフォーマーを提案し,モーダル内およびモーダル間の観点から異なる感情行動について検討する。
モーダル内において,シーケンシャル構造とフィードフォワード構造を簡単に切り替えることのできる新しい階層変換器を構築する。
インターモーダルでは、ニューロンとベクトルの粒度の相互作用を応用した、新しいマルチグラインド・インタラクティブ・フュージョンを構成する。
論文 参考訳(メタデータ) (2020-10-15T10:10:41Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。