論文の概要: CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation
- arxiv url: http://arxiv.org/abs/2508.03535v1
- Date: Tue, 05 Aug 2025 15:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.033693
- Title: CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation
- Title(参考訳): CoEmoGen:Semantically-Coherent and Scalable Emotional Image Content Generationを目指して
- Authors: Kaishen Yuan, Yuting Zhang, Shang Gao, Yijie Zhu, Wenshuo Chen, Yutao Yue,
- Abstract要約: 感情画像コンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、意味的に明確で、感情的に忠実な画像を生成することを目的としている。
セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
スケーラビリティを直感的に示すために,情緒的な芸術的イメージの大規模なデータセットであるEmoArtをキュレートする。
- 参考スコア(独自算出の注目度): 3.5418954219513625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Image Content Generation (EICG) aims to generate semantically clear and emotionally faithful images based on given emotion categories, with broad application prospects. While recent text-to-image diffusion models excel at generating concrete concepts, they struggle with the complexity of abstract emotions. There have also emerged methods specifically designed for EICG, but they excessively rely on word-level attribute labels for guidance, which suffer from semantic incoherence, ambiguity, and limited scalability. To address these challenges, we propose CoEmoGen, a novel pipeline notable for its semantic coherence and high scalability. Specifically, leveraging multimodal large language models (MLLMs), we construct high-quality captions focused on emotion-triggering content for context-rich semantic guidance. Furthermore, inspired by psychological insights, we design a Hierarchical Low-Rank Adaptation (HiLoRA) module to cohesively model both polarity-shared low-level features and emotion-specific high-level semantics. Extensive experiments demonstrate CoEmoGen's superiority in emotional faithfulness and semantic coherence from quantitative, qualitative, and user study perspectives. To intuitively showcase scalability, we curate EmoArt, a large-scale dataset of emotionally evocative artistic images, providing endless inspiration for emotion-driven artistic creation. The dataset and code are available at https://github.com/yuankaishen2001/CoEmoGen.
- Abstract(参考訳): 情緒的イメージコンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、幅広い応用可能性を持つ意味的明瞭で感情的に忠実な画像を生成することを目的としている。
最近のテキストと画像の拡散モデルは具体的な概念を生成するのに優れているが、抽象的な感情の複雑さに苦慮している。
EICG用に特別に設計された手法も登場したが、意味的不整合、曖昧さ、スケーラビリティの制限に悩まされるガイダンスにはワードレベルの属性ラベルを過度に頼っている。
これらの課題に対処するため、我々は、セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
具体的には、マルチモーダルな大言語モデル(MLLM)を活用し、文脈に富む意味指導のための情緒的なコンテンツに焦点を当てた高品質なキャプションを構築する。
さらに,心理的洞察に触発された階層型低ランク適応(HiLoRA)モジュールを設計し,極性共有低レベル特徴と感情特異的高レベルセマンティクスの両方を結合的にモデル化する。
広汎な実験は、定量的、質的、ユーザスタディの観点から、感情的忠実性とセマンティックコヒーレンスにおけるCoEmoGenの優位性を実証している。
スケーラビリティを直感的に示すために、感情を誘発する芸術的イメージの大規模なデータセットであるEmoArtをキュレートし、感情を駆使した芸術的創造に無限のインスピレーションを与える。
データセットとコードはhttps://github.com/yuankaishen2001/CoEmoGenで公開されている。
関連論文リスト
- UniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries [61.5273479616832]
感情的理解と生成をシームレスに統合する統合フレームワークを提案する。
我々は,UniEmoが感情的理解と生成の両タスクにおいて,最先端の手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-07-31T09:39:27Z) - Learning Transferable Facial Emotion Representations from Large-Scale Semantically Rich Captions [39.81062289449454]
EmoCap100Kは,10万以上のサンプルからなる大規模顔の感情キャプションデータセットである。
EmoCapCLIPは,クロスモーダルガイド型ポジティブマイニングモジュールによって強化されたグローバル・ローカル・コントラスト学習フレームワークを組み込んだものである。
論文 参考訳(メタデータ) (2025-07-28T17:28:08Z) - Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。
本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:33:46Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis [34.100793905255955]
マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
論文 参考訳(メタデータ) (2025-04-22T12:43:37Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。