Fugu-MT 論文翻訳(概要): Dual Stream Independence Decoupling for True Emotion Recognition under Masked Expressions

論文の概要: Dual Stream Independence Decoupling for True Emotion Recognition under Masked Expressions

arxiv url: http://arxiv.org/abs/2603.16760v1
Date: Tue, 17 Mar 2026 16:40:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.423925
Title: Dual Stream Independence Decoupling for True Emotion Recognition under Masked Expressions
Title（参考訳）: マスク表現下での真の感情認識のための二重ストリーム独立デカップリング
Authors: Jinsheng Wei, Xiguang Zhang, Zheng Shi, Guanming Lu,
Abstract要約: 仮面の表情から本当の感情を認識することは、意図的な隠蔽のために困難である。既存のパラダイムは、変装し始めたばかりのオンセットフレームを含むマスク付き圧縮クリップから、真の感情を認識する。本稿では,頂点フレームから真の感情を安定な擬似状態で分類する,新しい頂点フレームに基づくパラダイムを提案する。
参考スコア（独自算出の注目度）: 5.576237946226374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recongnizing true emotions from masked expressions is extremely challenging due to deliberate concealment. Existing paradigms recognize true emotions from masked-expression clips that contain onsetframes just starting to disguise. However, this paradigm may not reflect the actual disguised state, as the onsetframe leaks the true emotional information without reaching a stable disguise state. Thus, this paper introduces a novel apexframe-based paradigm that classifies true emotions from the apexframe with a stable disguised state. Furthermore, this paper proposes a novel dual stream independence decoupling framework that decouples true and disguised emotion features, avoiding the interference of disguised emotions on true emotions. For efficient decoupling, we design a decoupling loss group, comprising two classification losses that learn true emotion and disguised expression features, respectively, and a Hilbert-Schmidt Independence loss that enhances the independence of two features. Experiments demonstrate that the apexframe-based paradigm is challenging, and the proposed decouple framework improves recogntion performances.
Abstract（参考訳）: 仮面の表情から本当の感情を認識することは、意図的な隠蔽のために非常に難しい。既存のパラダイムは、変装し始めたばかりのオンセットフレームを含むマスク付き圧縮クリップから、真の感情を認識する。しかし、このパラダイムは実際の変装状態を反映するものではなく、オンセットフレームが安定した変装状態に到達せずに真の感情情報を漏らす。そこで,本研究では,アペックスフレームから真の感情を安定な擬似状態で分類する,新しいアペックスフレームに基づくパラダイムを提案する。さらに,本論文では,偽りの感情が真の感情に干渉することを避けるために,真と偽の感情の特徴を分離する,新たな二重ストリーム独立分離フレームワークを提案する。効率的なデカップリングを行うために,真の感情を学習する2つの分類損失と,2つの特徴の独立性を高めるHilbert-Schmidt独立性損失からなる分離損失群を設計する。実験により、頂点フレームベースのパラダイムは困難であることが示され、提案された分離フレームワークは、再宣言性能を改善する。

関連論文リスト

Emotions as Ambiguity-aware Ordinal Representations [3.527702696095888]
我々は、感情のアノテーションに存在するあいまいさと、感情のトレースに固有の時間的ダイナミクスの両方をキャプチャする新しいフレームワークである、あいまいさを意識した順序的感情表現を導入する。その結果, 正規表現は非有界ラベル上で従来のあいまいさ認識モデルよりも優れていた。
論文参考訳（メタデータ） (2025-08-26T16:55:11Z)
Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文参考訳（メタデータ） (2025-08-20T02:16:52Z)
DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [49.128847336227636]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文参考訳（メタデータ） (2025-05-26T08:47:39Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
ReflectDiffu:Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework [5.135349405469574]
共感応答生成のための軽量で包括的なフレームワークである ReflectDiffu を紹介する。この枠組みは感情の伝染を組み込んで感情表現を増強し、感情表現マスクを用いて批判的な感情的要素を識別する。探索・サンプリング・修正のメカニズムを2回反映することで、リフレクションディフューは感情的な意思決定を正確に意図の行動に変換する。
論文参考訳（メタデータ） (2024-09-16T13:56:17Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-21T06:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。