論文の概要: EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation
- arxiv url: http://arxiv.org/abs/2602.11658v1
- Date: Thu, 12 Feb 2026 07:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.692057
- Title: EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation
- Title(参考訳): EmoSpace: 没入感のあるコンテンツ生成のための微粒な感情プロトタイプ学習
- Authors: Bingyuan Wang, Xingbei Chen, Zongyang Qiu, Linping Yuan, Zeyu Wang,
- Abstract要約: EmoSpaceは感情を意識したコンテンツ生成のための新しいフレームワークで、動的に解釈可能な感情プロトタイプを学習する。
マルチプロトタイプ誘導,時間的ブレンディング,アテンション再重み付けを特徴とする制御可能な生成パイプラインを開発した。
本研究は, 微粒な感情制御による没入型視覚コンテンツ生成を促進し, セラピー, 教育, ストーリーテリング, 芸術創造, 文化保存などの応用を支援する。
- 参考スコア(独自算出の注目度): 7.969446878992859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion is important for creating compelling virtual reality (VR) content. Although some generative methods have been applied to lower the barrier to creating emotionally rich content, they fail to capture the nuanced emotional semantics and the fine-grained control essential for immersive experiences. To address these limitations, we introduce EmoSpace, a novel framework for emotion-aware content generation that learns dynamic, interpretable emotion prototypes through vision-language alignment. We employ a hierarchical emotion representation with rich learnable prototypes that evolve during training, enabling fine-grained emotional control without requiring explicit emotion labels. We develop a controllable generation pipeline featuring multi-prototype guidance, temporal blending, and attention reweighting that supports diverse applications, including emotional image outpainting, stylized generation, and emotional panorama generation for VR environments. Our experiments demonstrate the superior performance of EmoSpace over existing methods in both qualitative and quantitative evaluations. Additionally, we present a comprehensive user study investigating how VR environments affect emotional perception compared to desktop settings. Our work facilitates immersive visual content generation with fine-grained emotion control and supports applications like therapy, education, storytelling, artistic creation, and cultural preservation. Code and models will be made publicly available.
- Abstract(参考訳): 感情は魅力的なバーチャルリアリティ(VR)コンテンツを作成する上で重要である。
感情的にリッチなコンテンツを創造する障壁を低くするためにいくつかの生成法が適用されているが、それらが不明瞭な感情的意味論と、没入体験に不可欠なきめ細かい制御を捉えることに失敗している。
これらの制約に対処するために,視覚言語アライメントを通じて動的に解釈可能な感情プロトタイプを学習する感情対応コンテンツ生成のための新しいフレームワークであるEmoSpaceを紹介した。
我々は、学習可能なリッチなプロトタイプを備えた階層的な感情表現を採用し、トレーニング中に進化し、明示的な感情ラベルを必要とせず、きめ細かい感情制御を可能にする。
マルチプロトタイプ誘導,テンポラリブレンディング,アテンションリヘアリングを特徴とする制御可能な生成パイプラインを開発し,VR環境における感情イメージのアウトペイント,スタイリング生成,感情パノラマ生成など,多様なアプリケーションをサポートする。
実験では,定性評価と定量的評価の両方において,既存の手法よりもEmoSpaceの方が優れた性能を示した。
さらに,デスクトップ環境と比較して,VR環境が感情知覚に与える影響を総合的に調査する。
本研究は, 微粒な感情制御による没入型視覚コンテンツ生成を促進し, セラピー, 教育, ストーリーテリング, 芸術創造, 文化保存などの応用を支援する。
コードとモデルは公開されます。
関連論文リスト
- EmoCtrl: Controllable Emotional Image Content Generation [9.677863079897735]
制御可能な感情画像コンテンツ生成(C-EICG)を導入する。
C-EICGは、対象の感情を表現しながら、所定のコンテンツ記述に忠実な画像を生成することを目的としている。
EmoCtrlは、コンテンツ、感情、感情的なプロンプトを付加したデータセットでサポートされている。
論文 参考訳(メタデータ) (2025-12-27T02:18:36Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model [23.26111054485357]
連続感情画像コンテンツ生成(C-EICG)の新たな課題について紹介する。
本稿では,テキストプロンプトとValence-Arousal値に基づいて画像を生成する感情画像生成モデルであるEmotiCrafterを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:41:37Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。