論文の概要: Moodifier: MLLM-Enhanced Emotion-Driven Image Editing
- arxiv url: http://arxiv.org/abs/2507.14024v1
- Date: Fri, 18 Jul 2025 15:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.345273
- Title: Moodifier: MLLM-Enhanced Emotion-Driven Image Editing
- Title(参考訳): Moodifier:MLLMによる感情駆動画像編集
- Authors: Jiarong Ye, Sharon X. Huang,
- Abstract要約: LLaVAによって生成された詳細な階層的感情アノテーションを備えた8M以上の画像データセットであるMoodArchiveを紹介する。
第2に,MoodArchiveで微調整された視覚言語モデルであるMoodifyCLIPを開発し,抽象的な感情を特定の視覚属性に変換する。
第3に,MoodifyCLIPとマルチモーダル大言語モデル(MLLM)を利用した学習自由編集モデルであるMoodifierを提案する。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bridging emotions and visual content for emotion-driven image editing holds great potential in creative industries, yet precise manipulation remains challenging due to the abstract nature of emotions and their varied manifestations across different contexts. We tackle this challenge with an integrated approach consisting of three complementary components. First, we introduce MoodArchive, an 8M+ image dataset with detailed hierarchical emotional annotations generated by LLaVA and partially validated by human evaluators. Second, we develop MoodifyCLIP, a vision-language model fine-tuned on MoodArchive to translate abstract emotions into specific visual attributes. Third, we propose Moodifier, a training-free editing model leveraging MoodifyCLIP and multimodal large language models (MLLMs) to enable precise emotional transformations while preserving content integrity. Our system works across diverse domains such as character expressions, fashion design, jewelry, and home d\'ecor, enabling creators to quickly visualize emotional variations while preserving identity and structure. Extensive experimental evaluations show that Moodifier outperforms existing methods in both emotional accuracy and content preservation, providing contextually appropriate edits. By linking abstract emotions to concrete visual changes, our solution unlocks new possibilities for emotional content creation in real-world applications. We will release the MoodArchive dataset, MoodifyCLIP model, and make the Moodifier code and demo publicly available upon acceptance.
- Abstract(参考訳): 感情駆動型画像編集のための感情と視覚的コンテンツをブレンドすることは、創造的産業において大きな可能性を秘めているが、感情の抽象的な性質と異なる文脈におけるそれらの多様な表現のために、正確な操作は依然として困難である。
3つの相補的なコンポーネントからなる統合的なアプローチで、この問題に取り組みます。
まず、LLaVAが生成し、人間の評価者によって部分的に検証された詳細な階層的感情アノテーションを備えた8M以上の画像データセットであるMoodArchiveを紹介する。
第2に,MoodArchiveで微調整された視覚言語モデルであるMoodifyCLIPを開発し,抽象的な感情を特定の視覚属性に変換する。
第3に,MoodifyCLIPとMultimodal Large Language Model(MLLM)を利用した学習自由編集モデルであるMoodifierを提案する。
我々のシステムは、キャラクター表現、ファッションデザイン、ジュエリー、ホームd'ecorといった多様な領域にまたがって機能し、創造者はアイデンティティや構造を保ちながら、感情の変化を素早く可視化することができる。
Moodifierは感情的精度とコンテンツ保存の両面で既存の手法より優れており、文脈的に適切な編集を提供する。
抽象的な感情と具体的な視覚的変化を結びつけることで、われわれのソリューションは現実世界のアプリケーションで感情的なコンテンツを作る新しい可能性を開く。
MoodArchiveデータセット、MoodifyCLIPモデルをリリースします。
関連論文リスト
- KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文 参考訳(メタデータ) (2025-05-30T08:33:32Z) - Affective Image Editing: Shaping Emotional Factors via Text Descriptions [46.13506671212571]
AIEdiT for Affective Image Editing using Text descriptions。
我々は、連続的な感情スペクトルを構築し、ニュアンスな感情的要求を抽出する。
AIEdiTは、ユーザの感情的な要求を効果的に反映して、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-24T13:46:57Z) - Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding [24.884935271771624]
Emotion-Qwenは、感情理解と一般的な視覚言語推論の両方を強化するために設計されたフレームワークである。
Emotion-Qwenは、Mixture of Experts (MoE)パラダイムに基づいた洗練されたハイブリッドを組み込んでいる。
ビデオ感情推論(VER)データセットを構築し,40万本以上のバイリンガルビデオクリップと詳細な記述的アノテーションを用いて,感情・クウェンの感情推論能力をさらに強化する。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
本稿では,視覚芸術理解における重要な課題に焦点をあてる。芸術的イメージを与えられたモデルは,特定の人間の感情を誘発するピクセル領域をピンポイントする。
近年の芸術理解の進歩にもかかわらず、ピクセルレベルの感情理解は依然として二重の課題に直面している。
本稿では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激・説明モデル(EmoSEM)を提案する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。
現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。
本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。
DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2025-01-03T13:43:21Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。