論文の概要: Emotion-Driven Personalized Recommendation for AI-Generated Content Using Multi-Modal Sentiment and Intent Analysis
- arxiv url: http://arxiv.org/abs/2512.10963v1
- Date: Tue, 25 Nov 2025 17:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.662202
- Title: Emotion-Driven Personalized Recommendation for AI-Generated Content Using Multi-Modal Sentiment and Intent Analysis
- Title(参考訳): マルチモーダルセンシングとインテント分析を用いたAIコンテンツに対する感情駆動型パーソナライズドレコメンデーション
- Authors: Zheqi Hu, Xuanjing Chen, Jinlin Hu,
- Abstract要約: 本研究では,BERTをベースとしたCross-Modal Transformerを用いたマルチモーダル感情認識モデル(MMEI)を提案する。
MMEIは、事前訓練されたエンコーダViT、Wav2Vec2、BERTを介して、視覚的(表情)、聴覚的(音声)、テキスト的(内容または発話)モダリティを処理する。
MMEIモデルは、F1スコアの4.3%の改善と12.3%のクロスエントロピー損失を達成する。
- 参考スコア(独自算出の注目度): 1.111322427650556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of AI-generated content (AIGC) across domains such as music, video, and literature, the demand for emotionally aware recommendation systems has become increasingly important. Traditional recommender systems primarily rely on user behavioral data such as clicks, views, or ratings, while neglecting users' real-time emotional and intentional states during content interaction. To address this limitation, this study proposes a Multi-Modal Emotion and Intent Recognition Model (MMEI) based on a BERT-based Cross-Modal Transformer with Attention-Based Fusion, integrated into a cloud-native personalized AIGC recommendation framework. The proposed system jointly processes visual (facial expression), auditory (speech tone), and textual (comments or utterances) modalities through pretrained encoders ViT, Wav2Vec2, and BERT, followed by an attention-based fusion module to learn emotion-intent representations. These embeddings are then used to drive personalized content recommendations through a contextual matching layer. Experiments conducted on benchmark emotion datasets (AIGC-INT, MELD, and CMU-MOSEI) and an AIGC interaction dataset demonstrate that the proposed MMEI model achieves a 4.3% improvement in F1-score and a 12.3% reduction in cross-entropy loss compared to the best fusion-based transformer baseline. Furthermore, user-level online evaluations reveal that emotion-driven recommendations increase engagement time by 15.2% and enhance satisfaction scores by 11.8%, confirming the model's effectiveness in aligning AI-generated content with users' affective and intentional states. This work highlights the potential of cross-modal emotional intelligence for next-generation AIGC ecosystems, enabling adaptive, empathetic, and context-aware recommendation experiences.
- Abstract(参考訳): 音楽、ビデオ、文学などの分野におけるAIGC(AI- generated Content)の急速な成長に伴い、感情的に認識されるレコメンデーションシステムへの需要がますます重要になっている。
従来のレコメンデータシステムは、主にクリック、ビュー、レーティングなどのユーザの行動データに依存し、コンテンツインタラクション中にユーザのリアルタイムの感情的および意図的な状態を無視する。
この制限に対処するため,BERTをベースとしたCross-Modal Transformer with Attention-Based Fusionに基づくマルチモーダル感情・感情認識モデル(MMEI)を,クラウドネイティブなパーソナライズされたAIGCレコメンデーションフレームワークに統合した。
提案システムは、事前訓練されたエンコーダViT, Wav2Vec2, BERTを介して、視覚的(表情)、聴覚的(音声)、テキスト的(内容または発話)モダリティを共同で処理し、その後、注意に基づく融合モジュールで感情に敏感な表現を学習する。
これらの埋め込みは、コンテキストマッチングレイヤを通じてパーソナライズされたコンテンツレコメンデーションを駆動するために使用される。
ベンチマーク感情データセット(AIGC-INT, MELD, CMU-MOSEI)とAIGCインタラクションデータセットを用いて行った実験により、提案したMMEIモデルがF1スコアの4.3%改善し、融合ベースのトランスフォーマーベースラインと比較して12.3%のクロスエントロピー損失を減少させることを示した。
さらに、ユーザレベルのオンライン評価では、感情による推奨はエンゲージメント時間を15.2%増加させ、満足度スコアを11.8%向上させ、AI生成したコンテンツをユーザーの感情的および意図的な状態と整合させるモデルの有効性を確認する。
この研究は、次世代AIGCエコシステムにおける、モーダルな感情的インテリジェンスの可能性を強調し、適応的で共感的で、コンテキスト対応のレコメンデーション体験を可能にする。
関連論文リスト
- Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Leveraging Label Potential for Enhanced Multimodal Emotion Recognition [6.725011823614421]
マルチモーダル感情認識(MER)は、感情状態を正確に予測するために様々なモダリティを統合する。
本稿では,この制限を克服するために,ラベル信号誘導マルチモーダル感情認識(LSGMER)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-07T15:00:34Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - Exploring the Escalation of Source Bias in User, Data, and Recommender System Feedback Loop [65.23044868332693]
我々は,AIGC(AIGC)がレコメンダシステムの性能と力学に与える影響について検討する。
短期的には、AIGCに対する偏見はLLMベースのコンテンツ作成を促進し、AIGCコンテンツを増大させ、不公平なトラフィック分散を引き起こす。
長期コンテンツエコシステムのバランスを維持するため,L1-loss最適化に基づくデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:34:50Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。