論文の概要: MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization
- arxiv url: http://arxiv.org/abs/2511.21051v1
- Date: Wed, 26 Nov 2025 04:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.966364
- Title: MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization
- Title(参考訳): MUSE:テスト時間最適化による画像中の感情の合成のための統一フレームワークの操作
- Authors: Yingjie Xia, Xi Wang, Jinglei Shi, Vicky Kalogeiton, Jian Yang,
- Abstract要約: 現在の画像感情合成(IES)は、人工的に生成と編集のタスクにアプローチする。
MUSEは感情生成と編集の両方が可能な最初の統合フレームワークである。
- 参考スコア(独自算出の注目度): 37.71704315894968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images evoke emotions that profoundly influence perception, often prioritized over content. Current Image Emotional Synthesis (IES) approaches artificially separate generation and editing tasks, creating inefficiencies and limiting applications where these tasks naturally intertwine, such as therapeutic interventions or storytelling. In this work, we introduce MUSE, the first unified framework capable of both emotional generation and editing. By adopting a strategy conceptually aligned with Test-Time Scaling (TTS) that widely used in both LLM and diffusion model communities, it avoids the requirement for additional updating diffusion model and specialized emotional synthesis datasets. More specifically, MUSE addresses three key questions in emotional synthesis: (1) HOW to stably guide synthesis by leveraging an off-the-shelf emotion classifier with gradient-based optimization of emotional tokens; (2) WHEN to introduce emotional guidance by identifying the optimal timing using semantic similarity as a supervisory signal; and (3) WHICH emotion to guide synthesis through a multi-emotion loss that reduces interference from inherent and similar emotions. Experimental results show that MUSE performs favorably against all methods for both generation and editing, improving emotional accuracy and semantic diversity while maintaining an optimal balance between desired content, adherence to text prompts, and realistic emotional expression. It establishes a new paradigm for emotion synthesis.
- Abstract(参考訳): イメージは、知覚に深く影響を及ぼす感情を呼び起こし、しばしばコンテンツよりも優先される。
現在の画像感情合成(IES)は、人工的に生成と編集のタスクにアプローチし、治療介入やストーリーテリングなど、これらのタスクが自然に介在する非効率性とアプリケーションを制限する。
本稿では,感情生成と編集の両方が可能な最初の統合フレームワークであるMUSEを紹介する。
LLMと拡散モデルコミュニティの両方で広く使用されているテスト時間スケーリング(TTS)と概念的に整合した戦略を採用することで、追加の更新拡散モデルと特殊な感情合成データセットの必要性を回避することができる。
より具体的には、MUSEは感情合成における3つの重要な疑問に対処する:(1)感情合成を安定的に導くために、感情トークンの勾配に基づく最適化によるオフ・ザ・シェルフ感情分類器を活用すること、(2)意味的類似性を用いて最適なタイミングをスーパーバイザー信号として識別すること、(3)感情を多感情的損失を通じて誘導し、固有の感情や類似感情からの干渉を減らすこと、の3つの感情誘導を導入すること。
実験の結果,MUSEは生成と編集の両方法に対して良好に機能し,感情的精度と意味的多様性を改善しつつ,所望のコンテンツ間の最適なバランス,テキストプロンプトの順守,現実的な感情表現を維持した。
感情合成の新しいパラダイムを確立する。
関連論文リスト
- Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation [27.668177917370144]
E-TTS(Emotional text-to-speech)は、自然で信頼性の高い人間とコンピュータのインタラクションを生み出す中心である。
LLMベースのTSのための微粒な感情モデリングフレームワークであるEmo-FiLMを紹介する。
Emo-FiLMは、感情2vecから単語にフレームレベルの特徴を合わせ、単語レベルの感情アノテーションを得る。
テキストの埋め込みを直接変調することで、単語レベルの感情制御を可能にする。
論文 参考訳(メタデータ) (2025-09-20T14:26:15Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。
提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文 参考訳(メタデータ) (2025-06-03T10:59:22Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - CTSM: Combining Trait and State Emotions for Empathetic Response Model [2.865464162057812]
共感応答生成は、対話システムに話者の感情を知覚し、それに応じて共感応答を生成する。
我々は,共感反応モデル(CTSM)のためのトラストと状態感情の組み合わせを提案する。
対話における感情を十分に知覚するために、まず特徴と状態の感情の埋め込みを構築し、エンコードする。
感情表現を誘導する感情誘導モジュールにより、感情知覚能力をさらに強化する。
論文 参考訳(メタデータ) (2024-03-22T10:45:13Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。