論文の概要: Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating
- arxiv url: http://arxiv.org/abs/2602.18016v1
- Date: Fri, 20 Feb 2026 06:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.246451
- Title: Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating
- Title(参考訳): 効率・高精度感情操作によるLCM中心の視覚カスタマイズに向けて
- Authors: Jiamin Luo, Xuqian Gu, Jingjing Wang, Jiahong Lu,
- Abstract要約: 本稿では,マルチモーダル LLM による主観的感情の修正の中で画像を生成することに焦点を当てた,感情的視覚カスタマイズ(L-AVC)タスクを提案する。
効率の良い感情間変換(EIC)モジュールを、編集前後のセマンティクスにおける感情変換を効率よく整合させるように調整し、その後に、感情に依存しないコンテンツを正確に保持する精密な感情保持(PER)モジュールを設ける。
- 参考スコア(独自算出の注目度): 6.478514718464069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies on visual customization primarily rely on the objective alignment between various control signals (e.g., language, layout and canny) and the edited images, which largely ignore the subjective emotional contents, and more importantly lack general-purpose foundation models for affective visual customization. With this in mind, this paper proposes an LLM-centric Affective Visual Customization (L-AVC) task, which focuses on generating images within modifying their subjective emotions via Multimodal LLM. Further, this paper contends that how to make the model efficiently align emotion conversion in semantics (named inter-emotion semantic conversion) and how to precisely retain emotion-agnostic contents (named exter-emotion semantic retaining) are rather important and challenging in this L-AVC task. To this end, this paper proposes an Efficient and Precise Emotion Manipulating approach for editing subjective emotions in images. Specifically, an Efficient Inter-emotion Converting (EIC) module is tailored to make the LLM efficiently align emotion conversion in semantics before and after editing, followed by a Precise Exter-emotion Retaining (PER) module to precisely retain the emotion-agnostic contents. Comprehensive experimental evaluations on our constructed L-AVC dataset demonstrate the great advantage of the proposed EPEM approach to the L-AVC task over several state-of-the-art baselines. This justifies the importance of emotion information for L-AVC and the effectiveness of EPEM in efficiently and precisely manipulating such information.
- Abstract(参考訳): 視覚的カスタマイズに関するこれまでの研究は、主に、様々な制御信号(例えば、言語、レイアウト、キャニー)と、主観的な感情的内容を無視した編集画像との客観的なアライメントに依存しており、さらに、感情的な視覚的カスタマイズのための汎用的な基礎モデルが欠如している。
そこで本研究では,マルチモーダル LLM を用いた主観的感情の修正におけるイメージ生成に焦点を当てた LLM 中心の Affective Visual Customization (L-AVC) タスクを提案する。
さらに、このL-AVCタスクにおいて、モデルがセマンティクス(感情間セマンティクス変換)の感情変換を効率的に整合させる方法と、感情に依存しないコンテンツを正確に保持する方法(exter-emotion semantic retaining)がより重要であり、挑戦的であることを主張する。
そこで本研究では,画像中の主観的感情を編集するための効率的かつ高精度な感情操作手法を提案する。
具体的には、効率の良い感情間変換(EIC)モジュールを、編集前後のセマンティクスにおける感情変換を効率よく整合させるように調整し、続いて、感情非依存の内容を正確に保持する高精度な感情表現保持(PER)モジュールを設ける。
構築したL-AVCデータセットに対する総合的な実験的評価は、いくつかの最先端ベースライン上でのL-AVCタスクに対するEPEMアプローチの大きな利点を示している。
このことは、L-AVCにおける感情情報の重要性と、これらの情報を効率的に正確に操作するEPEMの有効性を正当化する。
関連論文リスト
- EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation [7.245162028678732]
EmoKGEditは、正確で構造を保った画像感情編集のための新しいトレーニング不要のフレームワークである。
オブジェクト,シーン,属性,視覚的手がかり,感情間の関係を乱すために,マルチモーダル・センティメント・アソシエーション・ナレッジグラフを構築した。
EmoKGEditは感情の忠実さとコンテンツ保存の両面で優れた性能を発揮し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-01-18T09:20:09Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition [39.138182195807424]
グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
本稿では,GER性能を向上させるために,視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:25:39Z) - Moodifier: MLLM-Enhanced Emotion-Driven Image Editing [0.9208007322096533]
LLaVAによって生成された詳細な階層的感情アノテーションを備えた8M以上の画像データセットであるMoodArchiveを紹介する。
第2に,MoodArchiveで微調整された視覚言語モデルであるMoodifyCLIPを開発し,抽象的な感情を特定の視覚属性に変換する。
第3に,MoodifyCLIPとマルチモーダル大言語モデル(MLLM)を利用した学習自由編集モデルであるMoodifierを提案する。
論文 参考訳(メタデータ) (2025-07-18T15:52:39Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。
本稿では,感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張したEmoEditを紹介する。
本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。