論文の概要: MooD: Perception-Enhanced Efficient Affective Image Editing via Continuous Valence-Arousal Modeling
- arxiv url: http://arxiv.org/abs/2605.02521v2
- Date: Wed, 13 May 2026 13:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.748904
- Title: MooD: Perception-Enhanced Efficient Affective Image Editing via Continuous Valence-Arousal Modeling
- Title(参考訳): MooD: 連続評価による知覚力向上効果画像編集-覚醒モデル
- Authors: Xinyi Yin, Yiduo Wang, Tingqi Hu, Meicong Si, Yunyun Shi, Shi Chen, Hao Wang, Junxiao Xue, Xuecheng Wu,
- Abstract要約: Affective Image Editing (AIE)は、視覚的コンテンツを修正して、ターゲットの感情を誘発することを目的としている。
本稿では,連続的Valence-Arousal(VA)値を編集命令として直接活用する最初のフレームワークであるMooDを提案する。
本研究は,MooDが高効率を維持しつつ,情動制御性と視覚的忠実性の両方において優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 6.7122126781526745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affective Image Editing (AIE) aims to modify visual content to evoke targeted emotions. Although current approaches achieve impressive editing quality, they often overlook inference efficiency, which limits their applicability in computational social scenarios. Moreover, most methods depend on discrete emotion representations, which hinder the continuous modeling of complex human emotions and constrain expressive capabilities in interactive scenarios. To tackle these gaps, we propose MooD, the first framework that directly leverages continuous Valence-Arousal (VA) values as editing instruction for fine-grained and efficient AIE in computational social systems. Specifically, we first introduce a VA-Aware retrieval strategy to bridge vague affective values and detailed visual semantics. Building upon this, MooD integrates visual transfer and perception-enhanced semantic guidance to achieve controllable AIE. Furthermore, considering that existing VA-annotated datasets mainly focus on social scenarios and largely overlook natural scenes, we therefore construct AffectSet, a comprehensive VA-annotated dataset covering diverse scenarios, to support model optimization and evaluation. Extensive qualitative and quantitative experimental results demonstrate that our MooD achieves superior performance in both affective controllability and visual fidelity while maintaining high efficiency. A series of ablation studies further reveal the crucial factors of our design.
- Abstract(参考訳): Affective Image Editing (AIE)は、視覚的コンテンツを修正して、ターゲットの感情を誘発することを目的としている。
現在のアプローチは印象的な編集品質を実現するが、しばしば推論効率を見落とし、計算社会のシナリオにおける適用性を制限している。
さらに、ほとんどの手法は、複雑な人間の感情の連続的なモデリングや、対話的なシナリオにおける制約的表現能力を妨げる、離散的な感情表現に依存している。
これらのギャップに対処するため,計算社会システムにおいて,連続的Valence-Arousal(VA)値を直接的に活用する最初のフレームワークであるMooDを提案する。
具体的には、まず、あいまいな感情値と詳細な視覚的意味論を橋渡しするVA-Aware検索戦略を導入する。
このことに基づいて、MooDは視覚伝達と知覚強化セマンティックガイダンスを統合して、制御可能なAIEを実現する。
さらに,既存のVAアノテートデータセットは,主に社会シナリオに焦点をあて,自然シーンを概ね見落としていることから,モデル最適化と評価をサポートするために,様々なシナリオをカバーする包括的なVAアノテートデータセットであるAffectSetを構築した。
広汎な定性的および定量的実験により,MooDは高い効率を維持しつつ,情動制御性と視覚的忠実性の両方において優れた性能を発揮することが示された。
一連のアブレーション研究は、我々の設計の重要な要素をさらに明らかにしている。
関連論文リスト
- Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating [6.478514718464069]
本稿では,マルチモーダル LLM による主観的感情の修正の中で画像を生成することに焦点を当てた,感情的視覚カスタマイズ(L-AVC)タスクを提案する。
効率の良い感情間変換(EIC)モジュールを、編集前後のセマンティクスにおける感情変換を効率よく整合させるように調整し、その後に、感情に依存しないコンテンツを正確に保持する精密な感情保持(PER)モジュールを設ける。
論文 参考訳(メタデータ) (2026-02-20T06:12:48Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Emotion Recognition with CLIP and Sequential Learning [5.66758879852618]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression Recognition Challenge, and the Action Unit (AU) Detection Challengeについて述べる。
本手法では,継続的な感情認識の促進を目的とした新しい枠組みを導入する。
論文 参考訳(メタデータ) (2025-03-13T01:02:06Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。