Fugu-MT 論文翻訳(概要): Affective Behaviour Analysis via Integrating Multi-Modal Knowledge

論文の概要: Affective Behaviour Analysis via Integrating Multi-Modal Knowledge

arxiv url: http://arxiv.org/abs/2403.10825v1
Date: Sat, 16 Mar 2024 06:26:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 21:35:14.988229
Title: Affective Behaviour Analysis via Integrating Multi-Modal Knowledge
Title（参考訳）: マルチモーダル知識の統合による影響行動分析
Authors: Wei Zhang, Feng Qiu, Chen Liu, Lincheng Li, Heming Du, Tiancheng Guo, Xin Yu,
Abstract要約: ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
参考スコア（独自算出の注目度）: 24.74463315135503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Affective Behavior Analysis aims to facilitate technology emotionally smart, creating a world where devices can understand and react to our emotions as humans do. To comprehensively evaluate the authenticity and applicability of emotional behavior analysis techniques in natural environments, the 6th competition on Affective Behavior Analysis in-the-wild (ABAW) utilizes the Aff-Wild2, Hume-Vidmimic2, and C-EXPR-DB datasets to set up five competitive tracks, i.e., Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, and Emotional Mimicry Intensity (EMI) Estimation. In this paper, we present our method designs for the five tasks. Specifically, our design mainly includes three aspects: 1) Utilizing a transformer-based feature fusion module to fully integrate emotional information provided by audio signals, visual images, and transcripts, offering high-quality expression features for the downstream tasks. 2) To achieve high-quality facial feature representations, we employ Masked-Auto Encoder as the visual features extraction model and fine-tune it with our facial dataset. 3) Considering the complexity of the video collection scenes, we conduct a more detailed dataset division based on scene characteristics and train the classifier for each scene. Extensive experiments demonstrate the superiority of our designs.
Abstract（参考訳）: 感情的行動分析(Affective Behavior Analysis)は、デバイスが人間の感情を理解し、反応できる世界を作ることで、テクノロジーを感情的に賢くすることを目指している。自然環境における感情行動分析技術の信頼性と適用性を総合的に評価するため、第6回感情行動分析コンテスト(ABAW)では、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットを用いて、Valence-Arousal(VA)推定、Expression(EXPR)認識、AU検出、複合表現(CE)認識、情緒的模倣強度(EMI)推定の5つの競合トラックを設定する。本稿では,5つの課題に対する手法設計について述べる。特に、我々のデザインは主に3つの側面を含む。 1)トランスフォーマーをベースとした機能融合モジュールを用いて,音声信号,視覚画像,文字起こしなどの感情情報を完全に統合し,下流タスクに高品質な表現機能を提供する。 2) 高品質な顔特徴表現を実現するために,視覚特徴抽出モデルとしてMasked-Auto Encoderを使用し,顔データセットで微調整する。 3)映像収集シーンの複雑さを考慮すると,シーン特性に基づいてより詳細なデータセット分割を行い,各シーンの分類器を訓練する。大規模な実験は、我々の設計の優越性を実証している。

関連論文リスト

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Modelling Emotions in Face-to-Face Setting: The Interplay of Eye-Tracking, Personality, and Temporal Dynamics [1.4645774851707578]
本研究では、視線追跡データ、時間的ダイナミクス、性格特性を統合することで、知覚と知覚の両方の感情の検出を大幅に向上させる方法について述べる。本研究は,将来の情緒コンピューティングと人間エージェントシステムの設計を示唆するものである。
論文参考訳（メタデータ） (2025-03-18T13:15:32Z)
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
MAVENは、感情の次元モデリングによる動的感情認識のための新しいアーキテクチャである。提案手法では,映像フレーム,音声セグメント,テキストからリッチな特徴表現を抽出するために,モダリティ固有エンコーダを用いる。 MAVENは感情を極座標で予測し、感情周囲の心理的モデルと一致させる。
論文参考訳（メタデータ） (2025-03-16T19:32:32Z)
HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文参考訳（メタデータ） (2025-03-13T14:21:46Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。 EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-08T04:53:55Z)
Affective Behaviour Analysis via Progressive Learning [23.455163723584427]
本稿では,2つの競合トラックに対する提案手法と実験結果について述べる。 Masked-Autoを自己指導で訓練し、高品質な顔機能を実現する。カリキュラム学習を利用して、モデルを単一の表現の認識から複合表現の認識へ移行する。
論文参考訳（メタデータ） (2024-07-24T02:24:21Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Computer Vision Estimation of Emotion Reaction Intensity in the Wild [1.5481864635049696]
本稿では,新たに導入された感情反応強度(ERI)推定課題について述べる。視覚領域で訓練された4つのディープニューラルネットワークと、感情反応強度を予測するために視覚的特徴と音声的特徴の両方で訓練されたマルチモーダルモデルを開発した。
論文参考訳（メタデータ） (2023-03-19T19:09:41Z)
CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。 CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文参考訳（メタデータ） (2022-08-10T15:46:05Z)
An Ensemble Approach for Multiple Emotion Descriptors Estimation Using Multi-task Learning [12.589338141771385]
本稿では,第4回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションへの提案方法について述べる。顔情報のみを使用する代わりに、顔と顔の周囲のコンテキストを含む提供されるデータセットから完全な情報を利用する。提案システムは,MTLチャレンジ検証データセット上で0.917の性能を実現する。
論文参考訳（メタデータ） (2022-07-22T04:57:56Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)
Prior Aided Streaming Network for Multi-task Affective Recognitionat the 2nd ABAW2 Competition [9.188777864190204]
我々は第2回ABAW2コンペティション(ABAW2コンペティション)に応募する。異なる感情表現を扱う際に,マルチタスク・ストリーミング・ネットワークを提案する。我々は、先行知識として高度な表情埋め込みを活用している。
論文参考訳（メタデータ） (2021-07-08T09:35:08Z)
Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文参考訳（メタデータ） (2021-03-11T09:07:25Z)
A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文参考訳（メタデータ） (2021-03-09T21:21:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。