論文の概要: Visual and textual prompts for enhancing emotion recognition in video
- arxiv url: http://arxiv.org/abs/2504.17224v1
- Date: Thu, 24 Apr 2025 03:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.236272
- Title: Visual and textual prompts for enhancing emotion recognition in video
- Title(参考訳): 映像における感情認識向上のための視覚的・テキスト的プロンプト
- Authors: Zhifeng Wang, Qixuan Zhang, Peter Zhang, Wenjia Niu, Kaihao Zhang, Ramesh Sankaranarayana, Sabrina Caldwell, Tom Gedeon,
- Abstract要約: 視覚大言語モデル(VLLM)は多モーダル理解に有望な可能性を秘めているが,映像に基づく感情認識への応用は,空間的・文脈的認識の不足によって制限されている。
孤立した顔の特徴を優先する伝統的なアプローチは、ボディランゲージ、環境コンテキスト、社会的相互作用といった重要な非言語的手がかりを無視することが多い。
本研究では,空間的アノテーション,生理的信号,文脈的手がかりを統一的なプロンプト戦略に統合することにより,ゼロショット感情認識を強化する新しいフレームワークであるSet-of-Vision-Text Prompting(SoVTP)を提案する。
- 参考スコア(独自算出の注目度): 16.317534822730256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Large Language Models (VLLMs) exhibit promising potential for multi-modal understanding, yet their application to video-based emotion recognition remains limited by insufficient spatial and contextual awareness. Traditional approaches, which prioritize isolated facial features, often neglect critical non-verbal cues such as body language, environmental context, and social interactions, leading to reduced robustness in real-world scenarios. To address this gap, we propose Set-of-Vision-Text Prompting (SoVTP), a novel framework that enhances zero-shot emotion recognition by integrating spatial annotations (e.g., bounding boxes, facial landmarks), physiological signals (facial action units), and contextual cues (body posture, scene dynamics, others' emotions) into a unified prompting strategy. SoVTP preserves holistic scene information while enabling fine-grained analysis of facial muscle movements and interpersonal dynamics. Extensive experiments show that SoVTP achieves substantial improvements over existing visual prompting methods, demonstrating its effectiveness in enhancing VLLMs' video emotion recognition capabilities.
- Abstract(参考訳): 視覚大言語モデル(VLLM)は多モーダル理解に有望な可能性を秘めているが,映像に基づく感情認識への応用は,空間的・文脈的認識の不足によって制限されている。
孤立した顔の特徴を優先する伝統的なアプローチは、ボディランゲージ、環境コンテキスト、社会的相互作用といった重要な非言語的手がかりを無視することが多く、現実のシナリオでは堅牢性が低下する。
このギャップに対処するために、空間アノテーション(例えば、境界ボックス、顔のランドマーク)、生理的信号(顔アクションユニット)、文脈的手がかり(身体姿勢、シーンダイナミックス、他者の感情)を統一的なプロンプト戦略に統合することにより、ゼロショット感情認識を強化する新しいフレームワークであるSet-of-Vision-Text Prompting(SoVTP)を提案する。
SoVTPは、顔の筋肉の動きと対人運動のきめ細かい分析を可能にしながら、全体像情報を保存する。
広汎な実験により、SoVTPは既存の視覚刺激法よりも大幅に改善され、VLLMの映像感情認識能力を高める効果が示された。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Visual Prompting in LLMs for Enhancing Emotion Recognition [10.608029430740364]
Vision Large Language Models (VLLM) は、コンピュータビジョンと自然言語処理の交差点を変革している。
本研究では,境界ボックスや顔のランドマークなどの空間情報を用いて,ターゲットを正確にマークすることで,ゼロショット感情認識を向上するSet-of-Vision prompting (SoV)アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-03T06:33:43Z) - In-Depth Analysis of Emotion Recognition through Knowledge-Based Large Language Models [3.8153944233011385]
本稿では,文脈に基づく感情認識の新たな分野に寄与する。
本稿では,感情認識手法とベイジアンキュー統合を組み合わせたアプローチを提案する。
本手法は,受刑者のジレンマである社会的課題における表情の解釈の文脈で検証する。
論文 参考訳(メタデータ) (2024-07-17T06:39:51Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-16T15:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。