論文の概要: EmoEdit: Evoking Emotions through Image Manipulation
- arxiv url: http://arxiv.org/abs/2405.12661v1
- Date: Tue, 21 May 2024 10:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:39:22.814936
- Title: EmoEdit: Evoking Emotions through Image Manipulation
- Title(参考訳): EmoEdit:イメージ操作による感情の誘発
- Authors: Jingyuan Yang, Jiawei Feng, Weibin Luo, Dani Lischinski, Daniel Cohen-Or, Hui Huang,
- Abstract要約: EmoEditは感情の属性と画像の編集を含む新しい2段階のフレームワークである。
感情帰属の段階では、視覚言語モデル(VLM)を用いて抽象的な感情を表現する意味的要因の階層を作成する。
画像編集段階では、VLMは提供された画像の最も関連性の高い要素を特定し、生成編集モデルを誘導し、情緒的な修正を行う。
- 参考スコア(独自算出の注目度): 62.416345095776656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective Image Manipulation (AIM) seeks to modify user-provided images to evoke specific emotional responses. This task is inherently complex due to its twofold objective: significantly evoking the intended emotion, while preserving the original image composition. Existing AIM methods primarily adjust color and style, often failing to elicit precise and profound emotional shifts. Drawing on psychological insights, we extend AIM by incorporating content modifications to enhance emotional impact. We introduce EmoEdit, a novel two-stage framework comprising emotion attribution and image editing. In the emotion attribution stage, we leverage a Vision-Language Model (VLM) to create hierarchies of semantic factors that represent abstract emotions. In the image editing stage, the VLM identifies the most relevant factors for the provided image, and guides a generative editing model to perform affective modifications. A ranking technique that we developed selects the best edit, balancing between emotion fidelity and structure integrity. To validate EmoEdit, we assembled a dataset of 416 images, categorized into positive, negative, and neutral classes. Our method is evaluated both qualitatively and quantitatively, demonstrating superior performance compared to existing state-of-the-art techniques. Additionally, we showcase EmoEdit's potential in various manipulation tasks, including emotion-oriented and semantics-oriented editing.
- Abstract(参考訳): Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
このタスクは、2つの目的のために本質的に複雑であり、意図した感情を著しく誘発し、元のイメージ構成を保存する。
既存のAIM手法は主に色とスタイルを調整し、しばしば正確な感情的な変化を誘発しない。
心理学的洞察に基づいて、感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張した。
EmoEditは感情の属性と画像の編集を含む新しい2段階のフレームワークである。
感情帰属の段階では、視覚言語モデル(VLM)を用いて抽象的な感情を表現する意味的要因の階層を作成する。
画像編集段階では、VLMは提供された画像の最も関連性の高い要素を特定し、生成編集モデルを誘導し、情緒的な修正を行う。
私たちが開発したランキング手法は、感情の忠実度と構造的整合性の間のバランスをとり、最適な編集方法を選択する。
EmoEditを検証するため、416の画像のデータセットを正、負、中立のクラスに分類した。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
さらに、感情指向やセマンティックス指向の編集など、様々な操作タスクにおけるEmoEditの可能性を示す。
関連論文リスト
- Make Me Happier: Evoking Emotions Through Image Diffusion Models [36.40067582639123]
そこで本研究では,感情を刺激するイメージを合成し,本来のシーンのセマンティクスと構造を保ちながら,感情を刺激するイメージを合成することを目的とした,感情誘発画像生成の新たな課題を提案する。
感情編集データセットが不足しているため、34万対の画像とその感情アノテーションからなるユニークなデータセットを提供する。
論文 参考訳(メタデータ) (2024-03-13T05:13:17Z) - EmoTalker: Emotionally Editable Talking Face Generation via Diffusion
Model [39.14430238946951]
EmoTalkerは、拡散モデルに基づく感情的に編集可能なポートレートアニメーションアプローチである。
感情インテンシティブロックは、プロンプトから派生したきめ細かい感情や強みを分析するために導入された。
EmoTalkerが高品質で感情的にカスタマイズ可能な表情生成に有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2024-01-16T02:02:44Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。