論文の概要: EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation
- arxiv url: http://arxiv.org/abs/2601.12326v1
- Date: Sun, 18 Jan 2026 09:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.576762
- Title: EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation
- Title(参考訳): EmoKGEdit:ビジュアルキュー変換によるトレーニング不要の感情注入
- Authors: Jing Zhang, Bingjie Fan,
- Abstract要約: EmoKGEditは、正確で構造を保った画像感情編集のための新しいトレーニング不要のフレームワークである。
オブジェクト,シーン,属性,視覚的手がかり,感情間の関係を乱すために,マルチモーダル・センティメント・アソシエーション・ナレッジグラフを構築した。
EmoKGEditは感情の忠実さとコンテンツ保存の両面で優れた性能を発揮し、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 7.245162028678732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing image emotion editing methods struggle to disentangle emotional cues from latent content representations, often yielding weak emotional expression and distorted visual structures. To bridge this gap, we propose EmoKGEdit, a novel training-free framework for precise and structure-preserving image emotion editing. Specifically, we construct a Multimodal Sentiment Association Knowledge Graph (MSA-KG) to disentangle the intricate relationships among objects, scenes, attributes, visual clues and emotion. MSA-KG explicitly encode the causal chain among object-attribute-emotion, and as external knowledge to support chain of thought reasoning, guiding the multimodal large model to infer plausible emotion-related visual cues and generate coherent instructions. In addition, based on MSA-KG, we design a disentangled structure-emotion editing module that explicitly separates emotional attributes from layout features within the latent space, which ensures that the target emotion is effectively injected while strictly maintaining visual spatial coherence. Extensive experiments demonstrate that EmoKGEdit achieves excellent performance in both emotion fidelity and content preservation, and outperforms the state-of-the-art methods.
- Abstract(参考訳): 既存のイメージ感情編集手法は、潜伏したコンテンツ表現から感情的な手がかりを遠ざけるのに苦労し、しばしば弱い感情表現と歪んだ視覚構造をもたらす。
このギャップを埋めるために,画像の感情を正確に保存する新たなトレーニングフリーフレームワークであるEmoKGEditを提案する。
具体的には、オブジェクト、シーン、属性、視覚的手がかり、感情間の複雑な関係を解消するために、マルチモーダル・センティメント・アソシエーション・ナレッジグラフ(MSA-KG)を構築した。
MSA-KGは、対象-属性-感情間の因果連鎖を明示的にエンコードし、思考推論の連鎖を支援する外部知識として、多モーダルな大モデルを、もっともらしい感情に関連する視覚的手がかりを推測し、一貫性のある指示を生成する。
さらに,MSA-KGに基づいて,視覚的空間コヒーレンスを厳格に維持しつつ,対象の感情が効果的に注入されることを保証するために,感情特性を潜在空間内のレイアウト特徴から明確に分離する構造感情編集モジュールを設計する。
EmoKGEditは感情の忠実度とコンテンツ保存の両面で優れた性能を示し、最先端の手法よりも優れていた。
関連論文リスト
- EmoLat: Text-driven Image Sentiment Transfer via Emotion Latent Space [8.453871826832478]
EmoLatは、細粒度でテキスト駆動のイメージ感情伝達を可能にする新しい感情潜在空間である。
EmoLat内では、感情、オブジェクト、視覚属性間の関係構造をキャプチャする感情意味グラフが構築されている。
EmoLat上に構築されたクロスモーダルな感情伝達フレームワークは,テキストとEmoLat機能の併用によるイメージ感情の操作を実現する。
論文 参考訳(メタデータ) (2026-01-17T15:07:36Z) - EmoCtrl: Controllable Emotional Image Content Generation [9.677863079897735]
制御可能な感情画像コンテンツ生成(C-EICG)を導入する。
C-EICGは、対象の感情を表現しながら、所定のコンテンツ記述に忠実な画像を生成することを目的としている。
EmoCtrlは、コンテンツ、感情、感情的なプロンプトを付加したデータセットでサポートされている。
論文 参考訳(メタデータ) (2025-12-27T02:18:36Z) - EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - Moodifier: MLLM-Enhanced Emotion-Driven Image Editing [0.9208007322096533]
LLaVAによって生成された詳細な階層的感情アノテーションを備えた8M以上の画像データセットであるMoodArchiveを紹介する。
第2に,MoodArchiveで微調整された視覚言語モデルであるMoodifyCLIPを開発し,抽象的な感情を特定の視覚属性に変換する。
第3に,MoodifyCLIPとマルチモーダル大言語モデル(MLLM)を利用した学習自由編集モデルであるMoodifierを提案する。
論文 参考訳(メタデータ) (2025-07-18T15:52:39Z) - KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文 参考訳(メタデータ) (2025-05-30T08:33:32Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。