論文の概要: Emotion-Director: Bridging Affective Shortcut in Emotion-Oriented Image Generation
- arxiv url: http://arxiv.org/abs/2512.19479v1
- Date: Mon, 22 Dec 2025 15:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.805982
- Title: Emotion-Director: Bridging Affective Shortcut in Emotion-Oriented Image Generation
- Title(参考訳): Emotion-Director:感情指向画像生成における影響のあるショートカットのブリッジング
- Authors: Guoli Jia, Junyao Hu, Xinwei Long, Kai Tian, Kaiyan Zhang, KaiKai Zhao, Ning Ding, Bowen Zhou,
- Abstract要約: Emotion-Directorは2つのモジュールからなるクロスモーダルなコラボレーションフレームワークである。
本稿では,MC拡散(MC-Diffusion)と略されるクロスモーダル協調拡散モデルを提案する。
また,意図した感情を表現するためにテキストプロンプトを書き換えるクロスモーダル協調エージェントMC-Agentを提案する。
- 参考スコア(独自算出の注目度): 23.10502994564729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image generation based on diffusion models has demonstrated impressive capability, motivating exploration into diverse and specialized applications. Owing to the importance of emotion in advertising, emotion-oriented image generation has attracted increasing attention. However, current emotion-oriented methods suffer from an affective shortcut, where emotions are approximated to semantics. As evidenced by two decades of research, emotion is not equivalent to semantics. To this end, we propose Emotion-Director, a cross-modal collaboration framework consisting of two modules. First, we propose a cross-Modal Collaborative diffusion model, abbreviated as MC-Diffusion. MC-Diffusion integrates visual prompts with textual prompts for guidance, enabling the generation of emotion-oriented images beyond semantics. Further, we improve the DPO optimization by a negative visual prompt, enhancing the model's sensitivity to different emotions under the same semantics. Second, we propose MC-Agent, a cross-Modal Collaborative Agent system that rewrites textual prompts to express the intended emotions. To avoid template-like rewrites, MC-Agent employs multi-agents to simulate human subjectivity toward emotions, and adopts a chain-of-concept workflow that improves the visual expressiveness of the rewritten prompts. Extensive qualitative and quantitative experiments demonstrate the superiority of Emotion-Director in emotion-oriented image generation.
- Abstract(参考訳): 拡散モデルに基づく画像生成は印象的な能力を示し、多様な特殊用途への探索を動機付けている。
広告における感情の重要性から、感情指向の画像生成が注目されている。
しかし、現在の感情指向手法は感情を意味論に近似する感情的ショートカットに悩まされている。
20年間の研究で証明されたように、感情は意味論と等価ではない。
この目的のために,2つのモジュールからなるクロスモーダル協調フレームワークであるEmotion-Directorを提案する。
まず,MC拡散(MC-Diffusion)と略されるクロスモーダル協調拡散モデルを提案する。
MC-Diffusionは、視覚的なプロンプトとガイダンスのためのテキストプロンプトを統合し、セマンティクスを超えた感情指向の画像を生成する。
さらに、負の視覚的プロンプトによりDPO最適化を改善し、同じ意味論の下で異なる感情に対するモデルの感度を高める。
第2に,意図した感情を表現するためにテキストプロンプトを書き換えるクロスモーダル協調エージェントMC-Agentを提案する。
テンプレートライクな書き直しを避けるため、MC-Agentはマルチエージェントを使用して感情に対する人間の主観性をシミュレートし、書き直しプロンプトの視覚的表現性を改善する概念の連鎖ワークフローを採用する。
感情指向画像生成における感情指向の優位性を示す。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
芸術的イメージが与えられたモデルでは、特定の人間の感情をトリガーするピクセル領域をピンポイントし、それに対する言語学的説明を生成する。
本稿では,感情理解能力を持つセグメンテーションフレームワークを実現するために,感情刺激・説明モデル(EmoSEM)モデルを提案する。
本手法は,低レベルの画素特徴から高レベルの感情解釈へのエンド・ツー・エンド・モデリングを実現し,視覚的感情分析のための第1の微粒化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - EmoAgent: A Multi-Agent Framework for Diverse Affective Image Manipulation [11.29688638322966]
Affective Image Manipulationは、画像内の視覚的要素を変更して、視聴者からの感情的な反応を誘発する。
既存のAIMアプローチは、感情と視覚的手がかりの間の堅固な音素間マッピングに依存している。
本稿では,D-AIMに特化した最初のマルチエージェントフレームワークであるemphEmoAgentを提案する。
論文 参考訳(メタデータ) (2025-03-14T10:55:56Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - Contrast and Generation Make BART a Good Dialogue Emotion Recognizer [38.18867570050835]
対話型感情認識において、話者依存との長期的文脈的感情関係が重要な役割を担っている。
教師付きコントラスト学習を用いて、異なる感情を相互に排他的に区別し、類似した感情をよりよく識別する。
我々は、文脈情報を扱うモデルの能力を高めるために補助応答生成タスクを利用する。
論文 参考訳(メタデータ) (2021-12-21T13:38:00Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。