論文の概要: EmoAgent: A Multi-Agent Framework for Diverse Affective Image Manipulation
- arxiv url: http://arxiv.org/abs/2503.11290v2
- Date: Fri, 20 Jun 2025 15:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.596277
- Title: EmoAgent: A Multi-Agent Framework for Diverse Affective Image Manipulation
- Title(参考訳): EmoAgent: 多様な影響のある画像操作のためのマルチエージェントフレームワーク
- Authors: Qi Mao, Haobo Hu, Yujie He, Difei Gao, Haokun Chen, Libiao Jin,
- Abstract要約: Affective Image Manipulationは、画像内の視覚的要素を変更して、視聴者からの感情的な反応を誘発する。
既存のAIMアプローチは、感情と視覚的手がかりの間の堅固な音素間マッピングに依存している。
本稿では,D-AIMに特化した最初のマルチエージェントフレームワークであるemphEmoAgentを提案する。
- 参考スコア(独自算出の注目度): 11.29688638322966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective Image Manipulation (AIM) aims to alter visual elements within an image to evoke specific emotional responses from viewers. However, existing AIM approaches rely on rigid \emph{one-to-one} mappings between emotions and visual cues, making them ill-suited for the inherently subjective and diverse ways in which humans perceive and express emotion.To address this, we introduce a novel task setting termed \emph{Diverse AIM (D-AIM)}, aiming to generate multiple visually distinct yet emotionally consistent image edits from a single source image and target emotion. We propose \emph{EmoAgent}, the first multi-agent framework tailored specifically for D-AIM. EmoAgent explicitly decomposes the manipulation process into three specialized phases executed by collaborative agents: a Planning Agent that generates diverse emotional editing strategies, an Editing Agent that precisely executes these strategies, and a Critic Agent that iteratively refines the results to ensure emotional accuracy. This collaborative design empowers EmoAgent to model \emph{one-to-many} emotion-to-visual mappings, enabling semantically diverse and emotionally faithful edits.Extensive quantitative and qualitative evaluations demonstrate that EmoAgent substantially outperforms state-of-the-art approaches in both emotional fidelity and semantic diversity, effectively generating multiple distinct visual edits that convey the same target emotion.
- Abstract(参考訳): Affective Image Manipulation (AIM)は、画像内の視覚的要素を変更して、視聴者から特定の感情的な反応を誘発することを目的としている。
しかし、既存のAIMアプローチでは、感情と視覚的手がかりの厳密な'emph{one-to-one'マッピングを頼りにしており、人間が感情を知覚し表現する本質的に主観的かつ多様な方法に不適当である。これに対処するために、単一のソースイメージとターゲット感情から複数の視覚的に明瞭で感情的に一貫した画像編集を生成することを目的とした、'emph{Diverse AIM' (D-AIM) と呼ばれる新しいタスク設定を導入する。
D-AIMに特化した最初のマルチエージェントフレームワークであるemph{EmoAgent}を提案する。
EmoAgentは、操作プロセスを、多様な感情的編集戦略を生成する計画エージェント、これらの戦略を正確に実行する編集エージェント、感情的正確性を確保するために反復的に結果を洗練する批判エージェントの3つの特別なフェーズに明示的に分解する。
この共同設計により、EmoAgentは感情から視覚へのマッピングをモデル化し、意味的に多様性があり、感情的に忠実な編集を可能にする。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis [2.1645626994550664]
連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワーク Emotion-Agent を提案する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
論文 参考訳(メタデータ) (2024-08-22T04:29:25Z) - Infusing Emotions into Task-oriented Dialogue Systems: Understanding, Management, and Generation [6.377334634656281]
感情は人間のコミュニケーションには不可欠であるが、タスク指向対話(ToD)モデリングでは見過ごされがちである。
本研究では,完全なToD処理ループに感情を組み込み,理解,管理,生成を行う。
提案手法がユーザの感情経験とタスク成功を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-05T12:21:04Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause [18.99103120856208]
感情と感情の因果関係を明らかにするために,統一マルチモーダル感情認識・感情因果分析フレームワーク(UniMEEC)を提案する。
UniMEECは、MERCおよびMECPEタスクをマスク予測問題として再構成し、因果プロンプトテンプレートでそれらを統一する。
4つの公開ベンチマークデータセットの実験結果は、MERCおよびMECPEタスクのモデル性能を検証する。
論文 参考訳(メタデータ) (2024-03-30T15:59:17Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。