論文の概要: AIVA: An AI-based Virtual Companion for Emotion-aware Interaction
- arxiv url: http://arxiv.org/abs/2509.03212v1
- Date: Wed, 03 Sep 2025 11:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.491605
- Title: AIVA: An AI-based Virtual Companion for Emotion-aware Interaction
- Title(参考訳): AIVA:感情認識インタラクションのためのAIベースの仮想コンパニオン
- Authors: Chenxi Li,
- Abstract要約: 私たちのAIベースの仮想コンパニオンは、マルチモーダルな感情の手がかりをキャプチャします。
私たちの組織は、ロボット工学、社会医療、メンタルヘルス、人間中心のAIに応用された感情認識エージェントのためのフレームワークを提供します。
- 参考スコア(独自算出の注目度): 10.811567597962453
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have significantly improved natural language understanding and generation, enhancing Human-Computer Interaction (HCI). However, LLMs are limited to unimodal text processing and lack the ability to interpret emotional cues from non-verbal signals, hindering more immersive and empathetic interactions. This work explores integrating multimodal sentiment perception into LLMs to create emotion-aware agents. We propose \ours, an AI-based virtual companion that captures multimodal sentiment cues, enabling emotionally aligned and animated HCI. \ours introduces a Multimodal Sentiment Perception Network (MSPN) using a cross-modal fusion transformer and supervised contrastive learning to provide emotional cues. Additionally, we develop an emotion-aware prompt engineering strategy for generating empathetic responses and integrate a Text-to-Speech (TTS) system and animated avatar module for expressive interactions. \ours provides a framework for emotion-aware agents with applications in companion robotics, social care, mental health, and human-centered AI.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩は自然言語の理解と生成を著しく改善し、ヒューマン・コンピュータ・インタラクション(HCI)が強化されている。
しかし、LLMは単調なテキスト処理に限られており、非言語的信号から感情的な手がかりを解釈する能力が欠如しており、より没入的で共感的な相互作用を妨げている。
この研究は、マルチモーダルな感情知覚をLLMに統合し、感情認識エージェントを作成する。
我々は、マルチモーダルな感情の手がかりを捉え、感情的に一致し、アニメーション化されたHCIを可能にするAIベースの仮想コンパニオンであるShaoursを提案する。
マルチモーダル・センティメント・パーセプション・ネットワーク(Multimodal Sentiment Perception Network, MSPN)は、マルチモーダル・フュージョン・トランスフォーマーと教師付きコントラスト学習を用いて、感情的な手がかりを提供する。
さらに,共感応答を生成するための感情認識型プロンプトエンジニアリング戦略を開発し,テキスト・トゥ・スピーチ(TTS)システムとアニメーションアバター・モジュールを統合する。
\oursは感情認識エージェントのためのフレームワークで、ロボット工学、ソーシャルケア、メンタルヘルス、人間中心のAIなどに適用できる。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。
ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。
評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文 参考訳(メタデータ) (2025-04-20T18:49:25Z) - Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering [13.775516653315103]
社会的知性は効果的なコミュニケーションと適応応答に不可欠である。
現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存している。
本稿では,大規模言語モデルと視覚情報を統合したLooped Video Debatingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T06:14:21Z) - Toward a Dialogue System Using a Large Language Model to Recognize User Emotions with a Camera [0.0]
ユーザの表情から感情を認識するためのAIエージェントの方法は研究されていない。
LLMをベースとしたAIエージェントが、カメラと対話してユーザをキャプチャすることで、感情状態に応じてユーザと対話できるかどうかを検討した。
その結果、AIエージェントは、HappyやAngryのような比較的高いスコアを持つ感情状態の感情状態に応じて会話できることを確認した。
論文 参考訳(メタデータ) (2024-08-15T07:03:00Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。