論文の概要: EmoLat: Text-driven Image Sentiment Transfer via Emotion Latent Space
- arxiv url: http://arxiv.org/abs/2601.12079v1
- Date: Sat, 17 Jan 2026 15:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.452301
- Title: EmoLat: Text-driven Image Sentiment Transfer via Emotion Latent Space
- Title(参考訳): EmoLat: Emotion Latent Spaceによるテキスト駆動画像センシング
- Authors: Jing Zhang, Bingjie Fan, Jixiang Zhu, Zhe Wang,
- Abstract要約: EmoLatは、細粒度でテキスト駆動のイメージ感情伝達を可能にする新しい感情潜在空間である。
EmoLat内では、感情、オブジェクト、視覚属性間の関係構造をキャプチャする感情意味グラフが構築されている。
EmoLat上に構築されたクロスモーダルな感情伝達フレームワークは,テキストとEmoLat機能の併用によるイメージ感情の操作を実現する。
- 参考スコア(独自算出の注目度): 8.453871826832478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose EmoLat, a novel emotion latent space that enables fine-grained, text-driven image sentiment transfer by modeling cross-modal correlations between textual semantics and visual emotion features. Within EmoLat, an emotion semantic graph is constructed to capture the relational structure among emotions, objects, and visual attributes. To enhance the discriminability and transferability of emotion representations, we employ adversarial regularization, aligning the latent emotion distributions across modalities. Building upon EmoLat, a cross-modal sentiment transfer framework is proposed to manipulate image sentiment via joint embedding of text and EmoLat features. The network is optimized using a multi-objective loss incorporating semantic consistency, emotion alignment, and adversarial regularization. To support effective modeling, we construct EmoSpace Set, a large-scale benchmark dataset comprising images with dense annotations on emotions, object semantics, and visual attributes. Extensive experiments on EmoSpace Set demonstrate that our approach significantly outperforms existing state-of-the-art methods in both quantitative metrics and qualitative transfer fidelity, establishing a new paradigm for controllable image sentiment editing guided by textual input. The EmoSpace Set and all the code are available at http://github.com/JingVIPLab/EmoLat.
- Abstract(参考訳): テキスト意味論と視覚的感情特徴の相互関係をモデル化することにより、細粒度でテキスト駆動のイメージ感情伝達を可能にする新しい感情潜在空間であるEmoLatを提案する。
EmoLat内では、感情、オブジェクト、視覚属性間の関係構造をキャプチャする感情意味グラフが構築されている。
感情表現の識別性や伝達性を高めるために、私たちは対角正則化を採用し、モーダル性にまたがる潜在感情分布を整列させる。
EmoLat上に構築されたクロスモーダルな感情伝達フレームワークは,テキストとEmoLat機能の併用によるイメージ感情の操作を実現する。
ネットワークは、セマンティック一貫性、感情のアライメント、逆正則化を取り入れた多目的損失を用いて最適化されている。
効率的なモデリングを支援するために,感情やオブジェクトの意味論,視覚的属性などのアノテーションを付加した画像からなる大規模ベンチマークデータセットであるEmoSpace Setを構築した。
EmoSpace Setの広範にわたる実験により,本手法は定量的な測定値と定性的な伝達忠実度の両方において,既存の最先端手法を著しく上回り,テキスト入力によって誘導される制御可能なイメージ感情編集のための新たなパラダイムを確立した。
EmoSpace Setとすべてのコードはhttp://github.com/JingVIPLab/EmoLat.comで入手できる。
関連論文リスト
- EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation [7.245162028678732]
EmoKGEditは、正確で構造を保った画像感情編集のための新しいトレーニング不要のフレームワークである。
オブジェクト,シーン,属性,視覚的手がかり,感情間の関係を乱すために,マルチモーダル・センティメント・アソシエーション・ナレッジグラフを構築した。
EmoKGEditは感情の忠実さとコンテンツ保存の両面で優れた性能を発揮し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-01-18T09:20:09Z) - EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition [39.138182195807424]
グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
本稿では,GER性能を向上させるために,視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:25:39Z) - CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation [3.5418954219513625]
感情画像コンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、意味的に明確で、感情的に忠実な画像を生成することを目的としている。
セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
スケーラビリティを直感的に示すために,情緒的な芸術的イメージの大規模なデータセットであるEmoArtをキュレートする。
論文 参考訳(メタデータ) (2025-08-05T15:04:34Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。