Fugu-MT 論文翻訳(概要): Contextually-rich human affect perception using multimodal scene information

論文の概要: Contextually-rich human affect perception using multimodal scene information

arxiv url: http://arxiv.org/abs/2303.06904v1
Date: Mon, 13 Mar 2023 07:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 16:04:36.518312
Title: Contextually-rich human affect perception using multimodal scene information
Title（参考訳）: マルチモーダルシーン情報を用いた文脈に富む人間の知覚
Authors: Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Shrikanth Narayanan
Abstract要約: 我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
参考スコア（独自算出の注目度）: 36.042369831043686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The process of human affect understanding involves the ability to infer person specific emotional states from various sources including images, speech, and language. Affect perception from images has predominantly focused on expressions extracted from salient face crops. However, emotions perceived by humans rely on multiple contextual cues including social settings, foreground interactions, and ambient visual scenes. In this work, we leverage pretrained vision-language (VLN) models to extract descriptions of foreground context from images. Further, we propose a multimodal context fusion (MCF) module to combine foreground cues with the visual scene and person-based contextual information for emotion prediction. We show the effectiveness of our proposed modular design on two datasets associated with natural scenes and TV shows.
Abstract（参考訳）: 人間の理解に影響を及ぼす過程は、イメージ、スピーチ、言語など様々なソースから人特有の感情状態を推測する能力を含む。画像からの感情知覚は、主に有能な顔作物から抽出された表現に焦点を当てている。しかしながら、人間によって知覚される感情は、社会的設定、前景の相互作用、周囲の視覚シーンなど、複数の文脈的手がかりに依存している。本研究では、事前学習された視覚言語(VLN)モデルを用いて、画像から前景コンテキストの記述を抽出する。さらに,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。自然のシーンとテレビ番組に関連する2つのデータセットに対するモジュール設計の有効性を示す。

関連論文リスト

How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文参考訳（メタデータ） (2024-09-04T09:32:40Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。 EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。 GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文参考訳（メタデータ） (2023-09-22T18:44:34Z)
StyleEDL: Style-Guided High-order Attention Network for Image Emotion Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。 StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文参考訳（メタデータ） (2023-08-06T03:22:46Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文参考訳（メタデータ） (2021-03-11T09:07:25Z)
ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。ある画像に対して感じている支配的な感情を示すために、注釈を付けます。これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文参考訳（メタデータ） (2021-01-19T01:03:40Z)
Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。 EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文参考訳（メタデータ） (2020-03-30T12:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。