論文の概要: Contextually-rich human affect perception using multimodal scene
information
- arxiv url: http://arxiv.org/abs/2303.06904v1
- Date: Mon, 13 Mar 2023 07:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:04:36.518312
- Title: Contextually-rich human affect perception using multimodal scene
information
- Title(参考訳): マルチモーダルシーン情報を用いた文脈に富む人間の知覚
- Authors: Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Shrikanth Narayanan
- Abstract要約: 我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
- 参考スコア(独自算出の注目度): 36.042369831043686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The process of human affect understanding involves the ability to infer
person specific emotional states from various sources including images, speech,
and language. Affect perception from images has predominantly focused on
expressions extracted from salient face crops. However, emotions perceived by
humans rely on multiple contextual cues including social settings, foreground
interactions, and ambient visual scenes. In this work, we leverage pretrained
vision-language (VLN) models to extract descriptions of foreground context from
images. Further, we propose a multimodal context fusion (MCF) module to combine
foreground cues with the visual scene and person-based contextual information
for emotion prediction. We show the effectiveness of our proposed modular
design on two datasets associated with natural scenes and TV shows.
- Abstract(参考訳): 人間の理解に影響を及ぼす過程は、イメージ、スピーチ、言語など様々なソースから人特有の感情状態を推測する能力を含む。
画像からの感情知覚は、主に有能な顔作物から抽出された表現に焦点を当てている。
しかしながら、人間によって知覚される感情は、社会的設定、前景の相互作用、周囲の視覚シーンなど、複数の文脈的手がかりに依存している。
本研究では、事前学習された視覚言語(VLN)モデルを用いて、画像から前景コンテキストの記述を抽出する。
さらに,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対するモジュール設計の有効性を示す。
関連論文リスト
- How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-09-04T09:32:40Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。
EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。
GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文 参考訳(メタデータ) (2023-09-22T18:44:34Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z) - Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。
EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。
その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T12:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。