論文の概要: EmoFeedback2: Reinforcement of Continuous Emotional Image Generation via LVLM-based Reward and Textual Feedback
- arxiv url: http://arxiv.org/abs/2511.19982v1
- Date: Tue, 25 Nov 2025 06:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.310525
- Title: EmoFeedback2: Reinforcement of Continuous Emotional Image Generation via LVLM-based Reward and Textual Feedback
- Title(参考訳): EmoFeedback2:LVLMによるリワードとテキストフィードバックによる連続感情画像生成の強化
- Authors: Jingyang Jia, Kai Shu, Gang Yang, Long Xing, Xun Chen, Aiping Liu,
- Abstract要約: 連続感情画像生成(C-EICG)のための新世代フィードバック強化パラダイム(EmoFeedback2)を提案する。
提案手法は,所望の感情を持つ高品質な画像を効果的に生成し,我々のカスタムデータセットにおける既存の最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 35.44748809967547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous emotional image generation (C-EICG) is emerging rapidly due to its ability to produce images aligned with both user descriptions and continuous emotional values. However, existing approaches lack emotional feedback from generated images, limiting the control of emotional continuity. Additionally, their simple alignment between emotions and naively generated texts fails to adaptively adjust emotional prompts according to image content, leading to insufficient emotional fidelity. To address these concerns, we propose a novel generation-understanding-feedback reinforcement paradigm (EmoFeedback2) for C-EICG, which exploits the reasoning capability of the fine-tuned large vision-language model (LVLM) to provide reward and textual feedback for generating high-quality images with continuous emotions. Specifically, we introduce an emotion-aware reward feedback strategy, where the LVLM evaluates the emotional values of generated images and computes the reward against target emotions, guiding the reinforcement fine-tuning of the generative model and enhancing the emotional continuity of images. Furthermore, we design a self-promotion textual feedback framework, in which the LVLM iteratively analyzes the emotional content of generated images and adaptively produces refinement suggestions for the next-round prompt, improving the emotional fidelity with fine-grained content. Extensive experimental results demonstrate that our approach effectively generates high-quality images with the desired emotions, outperforming existing state-of-the-art methods in our custom dataset. The code and dataset will be released soon.
- Abstract(参考訳): C-EICG(Continuous emotional Image Generation)は、ユーザ記述と継続的な感情的価値の両方に整合した画像を生成する能力により、急速に発展している。
しかし、既存のアプローチでは、生成した画像からの感情的なフィードバックが欠如しており、感情的な連続性の制御が制限されている。
さらに、感情と感情生成されたテキスト間の単純なアライメントは、画像の内容に応じて感情のプロンプトを適応的に調整することができないため、感情の忠実度は不十分である。
これらの問題に対処するため、我々はC-EICGのための新しい世代間フィードバック強化パラダイム(EmoFeedback2)を提案し、これは、微調整された大型視覚言語モデル(LVLM)の推論能力を利用して、連続的な感情で高品質な画像を生成するための報酬とテキストフィードバックを提供する。
具体的には、LVLMが生成した画像の感情的価値を評価し、対象の感情に対する報酬を計算し、生成モデルの強化微調整を誘導し、画像の感情的連続性を高める感情認識型報酬フィードバック戦略を導入する。
さらに、LVLMは、生成した画像の感情内容を反復的に分析し、次ラウンドのプロンプトに対する改善提案を適応的に生成し、きめ細かい内容で感情の忠実度を向上させる自己プロモーションテキストフィードバックフレームワークを設計する。
大規模な実験結果から,提案手法は所望の感情を持つ高品質な画像を効果的に生成し,既存の最先端の手法よりも優れていることが示された。
コードとデータセットはまもなくリリースされる予定だ。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - UniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries [61.5273479616832]
感情的理解と生成をシームレスに統合する統合フレームワークを提案する。
我々は,UniEmoが感情的理解と生成の両タスクにおいて,最先端の手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-07-31T09:39:27Z) - Affective Image Editing: Shaping Emotional Factors via Text Descriptions [46.13506671212571]
AIEdiT for Affective Image Editing using Text descriptions。
我々は、連続的な感情スペクトルを構築し、ニュアンスな感情的要求を抽出する。
AIEdiTは、ユーザの感情的な要求を効果的に反映して、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-24T13:46:57Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model [23.26111054485357]
連続感情画像コンテンツ生成(C-EICG)の新たな課題について紹介する。
本稿では,テキストプロンプトとValence-Arousal値に基づいて画像を生成する感情画像生成モデルであるEmotiCrafterを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:41:37Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion
Models [11.901294654242376]
本稿では,感情カテゴリを与えられた意味的明瞭で感情に忠実な画像を生成するための新しいタスクである感情画像コンテンツ生成(EICG)を紹介する。
具体的には、感情空間を提案し、それを強力なコントラスト言語-画像事前学習(CLIP)空間と整合させるマッピングネットワークを構築する。
本手法は,最先端のテクスト・ツー・イメージ・アプローチを定量的・質的に上回る。
論文 参考訳(メタデータ) (2024-01-09T15:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。