論文の概要: EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2401.04608v1
- Date: Tue, 9 Jan 2024 15:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:21:54.851989
- Title: EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models
- Title(参考訳): EmoGen: テキスト-画像拡散モデルによる感情画像コンテンツ生成
- Authors: Jingyuan Yang, Jiawei Feng, Hui Huang
- Abstract要約: 本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
- 参考スコア(独自算出の注目度): 11.901294654242376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in image generation task,
where users can create visually astonishing images with high-quality. However,
existing text-to-image diffusion models are proficient in generating concrete
concepts (dogs) but encounter challenges with more abstract ones (emotions).
Several efforts have been made to modify image emotions with color and style
adjustments, facing limitations in effectively conveying emotions with fixed
image contents. In this work, we introduce Emotional Image Content Generation
(EICG), a new task to generate semantic-clear and emotion-faithful images given
emotion categories. Specifically, we propose an emotion space and construct a
mapping network to align it with the powerful Contrastive Language-Image
Pre-training (CLIP) space, providing a concrete interpretation of abstract
emotions. Attribute loss and emotion confidence are further proposed to ensure
the semantic diversity and emotion fidelity of the generated images. Our method
outperforms the state-of-the-art text-to-image approaches both quantitatively
and qualitatively, where we derive three custom metrics, i.e., emotion
accuracy, semantic clarity and semantic diversity. In addition to generation,
our method can help emotion understanding and inspire emotional art design.
- Abstract(参考訳): 近年,高画質で視覚的に驚くべき画像を作成できる画像生成タスクが目覚ましい進歩を遂げている。
しかし、既存のテキスト・画像拡散モデルは具体的な概念(犬)を生成するのに熟練しているが、より抽象的な概念(感情)で困難に直面する。
画像の感情を色やスタイルの調整で修正する試みは、画像の内容が固定された感情を効果的に伝達する際の制限に直面している。
本稿では,感情カテゴリを付与する意味的・感情的イメージを生成する新しいタスクである感情的イメージコンテンツ生成(eicg)を紹介する。
具体的には,感情空間を提案し,それと強力なコントラスト言語・画像事前学習(clip)空間を対応づけるマッピングネットワークを構築し,抽象感情の具体的解釈を提供する。
属性損失と感情の信頼感は、生成した画像の意味的多様性と感情の忠実さを保証するためにさらに提案される。
提案手法は,感情の正確性,意味的明快さ,意味的多様性という3つのカスタム指標を導出する,定量的かつ質的手法よりも優れている。
生成に加えて,感情の理解や感情アートデザインのインスピレーションにも役立てることができる。
関連論文リスト
- Emotional Images: Assessing Emotions in Images and Potential Biases in Generative Models [0.0]
本稿では、生成人工知能(AI)モデルにより生成された画像の感情的誘発における潜在的なバイアスと矛盾について検討する。
我々は、AIが生成した画像によって誘発される感情と、それらの画像を作成するために使用されるプロンプトによって誘発される感情を比較した。
発見は、AI生成画像が元のプロンプトに関係なく、しばしばネガティブな感情的コンテンツに傾いていることを示している。
論文 参考訳(メタデータ) (2024-11-08T21:42:50Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - Make Me Happier: Evoking Emotions Through Image Diffusion Models [36.40067582639123]
そこで本研究では,感情を刺激するイメージを合成し,本来のシーンのセマンティクスと構造を保ちながら,感情を刺激するイメージを合成することを目的とした,感情誘発画像生成の新たな課題を提案する。
感情編集データセットが不足しているため、34万対の画像とその感情アノテーションからなるユニークなデータセットを提供する。
論文 参考訳(メタデータ) (2024-03-13T05:13:17Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。