Fugu-MT 論文翻訳(概要): Contextual Emotion Recognition using Large Vision Language Models

論文の概要: Contextual Emotion Recognition using Large Vision Language Models

arxiv url: http://arxiv.org/abs/2405.08992v1
Date: Tue, 14 May 2024 23:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 14:45:30.685890
Title: Contextual Emotion Recognition using Large Vision Language Models
Title（参考訳）: 大規模視覚言語モデルを用いた文脈感情認識
Authors: Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim,
Abstract要約: 現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
参考スコア（独自算出の注目度）: 0.6749750044497732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: "How does the person in the bounding box feel?" Achieving human-level recognition of the apparent emotion of a person in real world situations remains an unsolved task in computer vision. Facial expressions are not enough: body pose, contextual knowledge, and commonsense reasoning all contribute to how humans perform this emotional theory of mind task. In this paper, we examine two major approaches enabled by recent large vision language models: 1) image captioning followed by a language-only LLM, and 2) vision language models, under zero-shot and fine-tuned setups. We evaluate the methods on the Emotions in Context (EMOTIC) dataset and demonstrate that a vision language model, fine-tuned even on a small dataset, can significantly outperform traditional baselines. The results of this work aim to help robots and agents perform emotionally sensitive decision-making and interaction in the future.
Abstract（参考訳）: 「バウンディングボックスの人はどんな感じですか?」現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。身体的ポーズ、文脈的知識、常識的推論は全て、人間の心的タスクの感情的理論の実行に寄与する。本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて考察する。 1)画像キャプションに言語のみのLLMが続き、 2)視覚言語モデル、ゼロショットと微調整のセットアップ。 EMOTIC(Emotions in Context)データセットの手法を評価し、小さなデータセットでも微調整された視覚言語モデルが従来のベースラインを大幅に上回ることを示す。この研究の結果は、ロボットやエージェントが将来感情に敏感な意思決定とインタラクションを行うのを助けることを目的としている。

関連論文リスト

A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。 IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。 HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:07:30Z)
KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。 Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文参考訳（メタデータ） (2025-05-30T08:33:32Z)
EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition [18.8101367995391]
EmoNet FaceはAIシステムの開発と評価のための総合的なベンチマークスイートである。新たな40カテゴリの感情分類法は、人間の感情経験のより詳細な詳細を捉えている。明示的で完全な表情を持つ3つの大規模なAI生成データセット。 EmpathicInsight-Faceは、私たちのベンチマークで人間レベルのパフォーマンスを達成するモデルです。
論文参考訳（メタデータ） (2025-05-26T14:19:58Z)
"Only ChatGPT gets me": An Empirical Analysis of GPT versus other Large Language Models for Emotion Detection in Text [2.6012482282204004]
本研究では,大規模言語モデル(LLM)のテキストによる人間の感情の検出と理解能力について検討する。 GoEmotionsデータセットの最先端モデルとの比較を含む方法論を用いて,感情分析システムとしてのLLMの有効性を評価することを目的とする。
論文参考訳（メタデータ） (2025-03-05T09:47:49Z)
Beyond Vision: How Large Language Models Interpret Facial Expressions from Valence-Arousal Values [6.987852837732702]
大規模言語モデルは、主にテキストベースの入力と出力によって操作されるが、人間の感情は、表情を含む言語的および非言語的な手がかりによって伝達される。本研究では,LLMが生の視覚的入力を使わずに,表情の次元から感情的意味を推定できるかどうかを検討する。
論文参考訳（メタデータ） (2025-02-08T09:54:03Z)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。 MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文参考訳（メタデータ） (2024-11-18T02:09:48Z)
How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文参考訳（メタデータ） (2024-09-04T09:32:40Z)
Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [10.580858171606167]
我々はテキストベースのヒューマン-AIインタラクションの代替案を提案する。非言語的な視覚コミュニケーションを活用することで、表情、頭と体の動きを通じて、エンゲージメントを高めることを目指している。我々のアプローチは芸術に特化せず、様々な絵画、アニメーション、アバターに適応することができる。
論文参考訳（メタデータ） (2024-02-09T13:07:22Z)
Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning [0.6749750044497732]
本研究では,感情認知に関連する「物語キャプション」を構築することで,感情的推論機能を組み込む手法を提案する。ゼロショット分類器 (CLIP) と微調整型視覚言語モデル (LLaVA) を用いて, 人間の生成した記述子上でのキャプションを構築する2つの方法を提案する。実験の結果,「最強」の物語記述子と言語モデルの「スロー」推論を組み合わせることは,心の感情理論を実現するための有望な方法であることがわかった。
論文参考訳（メタデータ） (2023-10-30T20:26:12Z)
Contextual Emotion Estimation from Image Captions [0.6749750044497732]
大規模言語モデルが文脈的感情推定タスクをサポートできるかを,まずイメージをキャプションし,LLMを用いて推論する。 EMOTICデータセットから331画像のサブセットのキャプションと感情アノテーションを生成する。 GPT-3.5(特にtext-davinci-003モデル)は、人間のアノテーションと一致した驚くほど合理的な感情予測を提供する。
論文参考訳（メタデータ） (2023-09-22T18:44:34Z)
Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文参考訳（メタデータ） (2023-02-24T17:29:31Z)
Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文参考訳（メタデータ） (2022-10-04T22:44:17Z)
Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。 iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。 GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文参考訳（メタデータ） (2022-04-18T19:39:36Z)
Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文参考訳（メタデータ） (2021-04-20T16:55:15Z)
A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文参考訳（メタデータ） (2021-03-09T21:21:02Z)
Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文参考訳（メタデータ） (2019-12-26T14:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。