論文の概要: EmoAgent: Multi-Agent Collaboration of Plan, Edit, and Critic, for Affective Image Manipulation
- arxiv url: http://arxiv.org/abs/2503.11290v1
- Date: Fri, 14 Mar 2025 10:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:01.565685
- Title: EmoAgent: Multi-Agent Collaboration of Plan, Edit, and Critic, for Affective Image Manipulation
- Title(参考訳): EmoAgent: 影響のある画像操作のための計画、編集、批評のマルチエージェントコラボレーション
- Authors: Qi Mao, Haobo Hu, Yujie He, Difei Gao, Haokun Chen, Libiao Jin,
- Abstract要約: Affective Image Manipulation (AIM)は、複数の視覚要素を調整して特定の感情を誘発することで、イメージの感情的影響を変化させることを目的としている。
AIMのための最初のマルチエージェントコラボレーションフレームワークであるEmoAgentを紹介する。
EmoAgentの有効性を高めるために,感情要素情報検索装置,決定木空間,ツールライブラリを開発する。
- 参考スコア(独自算出の注目度): 11.29688638322966
- License:
- Abstract: Affective Image Manipulation (AIM) aims to alter an image's emotional impact by adjusting multiple visual elements to evoke specific feelings.Effective AIM is inherently complex, necessitating a collaborative approach that involves identifying semantic cues within source images, manipulating these elements to elicit desired emotional responses, and verifying that the combined adjustments successfully evoke the target emotion.To address these challenges, we introduce EmoAgent, the first multi-agent collaboration framework for AIM. By emulating the cognitive behaviors of a human painter, EmoAgent incorporates three specialized agents responsible for planning, editing, and critical evaluation. Furthermore, we develop an emotion-factor knowledge retriever, a decision-making tree space, and a tool library to enhance EmoAgent's effectiveness in handling AIM. Experiments demonstrate that the proposed multi-agent framework outperforms existing methods, offering more reasonable and effective emotional expression.
- Abstract(参考訳): Affective Image Manipulation (AIM) は、複数の視覚的要素を調整して特定の感情を誘発することによるイメージの感情への影響を変化させることを目的としており、AIMは本質的に複雑であり、ソースイメージ内の意味的手がかりを識別し、これらの要素を操作して所望の感情反応を誘発し、組み合わせた調整が目標の感情を誘発することを検証する。これらの課題に対処するために、AIMのための最初のマルチエージェント協調フレームワークであるEmoAgentを紹介する。
人間の画家の認知行動をエミュレートすることで、EmoAgentは計画、編集、批判評価を担当する3つの特殊エージェントを組み込んだ。
さらに,感情要素情報検索システム,意思決定木空間,ツールライブラリを開発し,AIM処理におけるEmoAgentの有効性を高める。
実験により、提案されたマルチエージェントフレームワークは既存の手法よりも優れており、より合理的で効果的な感情表現を提供することが示された。
関連論文リスト
- MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis [2.1645626994550664]
連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワーク Emotion-Agent を提案する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
論文 参考訳(メタデータ) (2024-08-22T04:29:25Z) - Infusing Emotions into Task-oriented Dialogue Systems: Understanding, Management, and Generation [6.377334634656281]
感情は人間のコミュニケーションには不可欠であるが、タスク指向対話(ToD)モデリングでは見過ごされがちである。
本研究では,完全なToD処理ループに感情を組み込み,理解,管理,生成を行う。
提案手法がユーザの感情経験とタスク成功を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-05T12:21:04Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。