論文の概要: EmoAgent: Multi-Agent Collaboration of Plan, Edit, and Critic, for Affective Image Manipulation
- arxiv url: http://arxiv.org/abs/2503.11290v1
- Date: Fri, 14 Mar 2025 10:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.291854
- Title: EmoAgent: Multi-Agent Collaboration of Plan, Edit, and Critic, for Affective Image Manipulation
- Title(参考訳): EmoAgent: 影響のある画像操作のための計画、編集、批評のマルチエージェントコラボレーション
- Authors: Qi Mao, Haobo Hu, Yujie He, Difei Gao, Haokun Chen, Libiao Jin,
- Abstract要約: Affective Image Manipulation (AIM)は、複数の視覚要素を調整して特定の感情を誘発することで、イメージの感情的影響を変化させることを目的としている。
AIMのための最初のマルチエージェントコラボレーションフレームワークであるEmoAgentを紹介する。
EmoAgentの有効性を高めるために,感情要素情報検索装置,決定木空間,ツールライブラリを開発する。
- 参考スコア(独自算出の注目度): 11.29688638322966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective Image Manipulation (AIM) aims to alter an image's emotional impact by adjusting multiple visual elements to evoke specific feelings.Effective AIM is inherently complex, necessitating a collaborative approach that involves identifying semantic cues within source images, manipulating these elements to elicit desired emotional responses, and verifying that the combined adjustments successfully evoke the target emotion.To address these challenges, we introduce EmoAgent, the first multi-agent collaboration framework for AIM. By emulating the cognitive behaviors of a human painter, EmoAgent incorporates three specialized agents responsible for planning, editing, and critical evaluation. Furthermore, we develop an emotion-factor knowledge retriever, a decision-making tree space, and a tool library to enhance EmoAgent's effectiveness in handling AIM. Experiments demonstrate that the proposed multi-agent framework outperforms existing methods, offering more reasonable and effective emotional expression.
- Abstract(参考訳): Affective Image Manipulation (AIM) は、複数の視覚的要素を調整して特定の感情を誘発することによるイメージの感情への影響を変化させることを目的としており、AIMは本質的に複雑であり、ソースイメージ内の意味的手がかりを識別し、これらの要素を操作して所望の感情反応を誘発し、組み合わせた調整が目標の感情を誘発することを検証する。これらの課題に対処するために、AIMのための最初のマルチエージェント協調フレームワークであるEmoAgentを紹介する。
人間の画家の認知行動をエミュレートすることで、EmoAgentは計画、編集、批判評価を担当する3つの特殊エージェントを組み込んだ。
さらに,感情要素情報検索システム,意思決定木空間,ツールライブラリを開発し,AIM処理におけるEmoAgentの有効性を高める。
実験により、提案されたマルチエージェントフレームワークは既存の手法よりも優れており、より合理的で効果的な感情表現を提供することが示された。
関連論文リスト
- Moodifier: MLLM-Enhanced Emotion-Driven Image Editing [0.9208007322096533]
LLaVAによって生成された詳細な階層的感情アノテーションを備えた8M以上の画像データセットであるMoodArchiveを紹介する。
第2に,MoodArchiveで微調整された視覚言語モデルであるMoodifyCLIPを開発し,抽象的な感情を特定の視覚属性に変換する。
第3に,MoodifyCLIPとマルチモーダル大言語モデル(MLLM)を利用した学習自由編集モデルであるMoodifierを提案する。
論文 参考訳(メタデータ) (2025-07-18T15:52:39Z) - Affective Image Editing: Shaping Emotional Factors via Text Descriptions [46.13506671212571]
AIEdiT for Affective Image Editing using Text descriptions。
我々は、連続的な感情スペクトルを構築し、ニュアンスな感情的要求を抽出する。
AIEdiTは、ユーザの感情的な要求を効果的に反映して、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-24T13:46:57Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis [2.1645626994550664]
連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワーク Emotion-Agent を提案する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
論文 参考訳(メタデータ) (2024-08-22T04:29:25Z) - Infusing Emotions into Task-oriented Dialogue Systems: Understanding, Management, and Generation [6.377334634656281]
感情は人間のコミュニケーションには不可欠であるが、タスク指向対話(ToD)モデリングでは見過ごされがちである。
本研究では,完全なToD処理ループに感情を組み込み,理解,管理,生成を行う。
提案手法がユーザの感情経験とタスク成功を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-05T12:21:04Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause [18.99103120856208]
感情と感情の因果関係を明らかにするために,統一マルチモーダル感情認識・感情因果分析フレームワーク(UniMEEC)を提案する。
UniMEECは、MERCおよびMECPEタスクをマスク予測問題として再構成し、因果プロンプトテンプレートでそれらを統一する。
4つの公開ベンチマークデータセットの実験結果は、MERCおよびMECPEタスクのモデル性能を検証する。
論文 参考訳(メタデータ) (2024-03-30T15:59:17Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。