Fugu-MT 論文翻訳(概要): Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

論文の概要: Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

arxiv url: http://arxiv.org/abs/2603.09324v1
Date: Tue, 10 Mar 2026 07:58:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.136665
Title: Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents
Title（参考訳）: 感情の文脈を社会的に応答するVRエージェントに統合する「モッド・ビーズド・ワード」
Authors: SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun Kim,
Abstract要約: 音声の感情を明示的な対話コンテキストとして扱う感情コンテキスト対応VRインタラクションパイプラインを提案する。リアルタイム音声感情認識モデルは、ユーザの感情状態を韻律から推測し、その結果の感情ラベルをエージェントの対話コンテキストに注入する。
参考スコア（独自算出の注目度）: 13.32446993826821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In VR interactions with embodied conversational agents, users' emotional intent is often conveyed more by how something is said than by what is said. However, most VR agent pipelines rely on speech-to-text processing, discarding prosodic cues and often producing emotionally incongruent responses despite correct semantics. We propose an emotion-context-aware VR interaction pipeline that treats vocal emotion as explicit dialogue context in an LLM-based conversational agent. A real-time speech emotion recognition model infers users' emotional states from prosody, and the resulting emotion labels are injected into the agent's dialogue context to shape response tone and style. Results from a within-subjects VR study (N=30) show significant improvements in dialogue quality, naturalness, engagement, rapport, and human-likeness, with 93.3% of participants preferring the emotion-aware agent.
Abstract（参考訳）: 具体的会話エージェントとのVRインタラクションでは、ユーザの感情的な意図は、言葉よりも何かが語られるかによって伝達されることが多い。しかし、ほとんどのVRエージェントパイプラインは音声からテキストへ処理し、韻律的手がかりを捨て、正しい意味論にもかかわらず感情的に矛盾する応答をしばしば生み出す。 LLMに基づく会話エージェントにおいて、音声感情を明示的な対話コンテキストとして扱う感情コンテキスト対応VRインタラクションパイプラインを提案する。リアルタイム音声感情認識モデルは、ユーザの感情状態を韻律から推測し、その結果の感情ラベルをエージェントの対話コンテキストに注入して、応答音とスタイルを形作る。内在型VR研究(N=30)の結果は、会話の質、自然性、エンゲージメント、ラプポート、人間類似性に大きな改善が見られ、93.3%の参加者が感情認識剤を好んでいる。

関連論文リスト

Semantic Differentiation in Speech Emotion Recognition: Insights from Descriptive and Expressive Speech Roles [4.516156697420418]
音声感情認識(SER)は、人間とコンピュータの相互作用を改善するために不可欠である。音声の文脈的内容を表す記述的意味論と、話者の感情状態を反映する表現的意味論とを区別する。我々の発見は、人間とAIのインタラクションにおけるSERの応用を知らせ、よりコンテキスト対応のAIシステムへの道を開いた。
論文参考訳（メタデータ） (2025-10-03T14:42:35Z)
EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues [37.96886343501444]
AV-EmoDialogは,ユーザの音声・視覚入力からの言語情報や非言語情報を利用して,より応答性が高く共感的な対話を生成するための対話システムである。 AV-EmoDialogは、音声と視覚の対話における感情の手がかりを体系的に活用し、音声から音声の内容と感情のトーンを抽出し、視覚からきめ細かい表情を分析し、これらの手がかりを統合し、エンドツーエンドで感情的な反応を生成する。
論文参考訳（メタデータ） (2024-12-23T05:24:26Z)
Toward a Dialogue System Using a Large Language Model to Recognize User Emotions with a Camera [0.0]
ユーザの表情から感情を認識するためのAIエージェントの方法は研究されていない。 LLMをベースとしたAIエージェントが、カメラと対話してユーザをキャプチャすることで、感情状態に応じてユーザと対話できるかどうかを検討した。その結果、AIエージェントは、HappyやAngryのような比較的高いスコアを持つ感情状態の感情状態に応じて会話できることを確認した。
論文参考訳（メタデータ） (2024-08-15T07:03:00Z)
Personality-affected Emotion Generation in Dialog Systems [67.40609683389947]
ダイアログシステムに与えられた個性に基づいて感情を生成する新しいタスクであるパーソナリティ影響感情生成を提案する。本課題の課題,すなわち,(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。
論文参考訳（メタデータ） (2024-04-03T08:48:50Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Empathetic Dialogue Generation via Sensitive Emotion Recognition and Sensible Knowledge Selection [47.60224978460442]
情緒的対話生成のためのシリアル・アンド・感情知識相互作用(SEEK)法を提案する。我々は,会話中の感情のダイナミックス(感情の流れ)に敏感な微粒なエンコーディング戦略を用いて,応答の感情依存特性を予測するとともに,知識と感情の相互作用をモデル化し,より敏感な応答を生成する新しい枠組みを設計する。
論文参考訳（メタデータ） (2022-10-21T03:51:18Z)
Towards Multi-Turn Empathetic Dialogs with Positive Emotion Elicitation [39.747587984500406]
本稿では,肯定的な感情誘発を伴う共感的対話生成の課題について述べる。エージェントは、マルチターンダイアログにおいて、ユーザのポジティブ感情を引き出すターゲットとともに共感応答を行う。我々はPosEmoDialと呼ばれる肯定的な感情誘発を伴う大規模感情対話データセットを収集する。
論文参考訳（メタデータ） (2022-04-22T05:32:08Z)
Emotion-aware Chat Machine: Automatic Emotional Response Generation for Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-06T06:26:15Z)
Disambiguating Affective Stimulus Associations for Robot Perception and Dialogue [67.89143112645556]
知覚された聴覚刺激と感情表現の関連性を学ぶことができるNICOロボットを提供します。 NICOは、感情駆動対話システムの助けを借りて、個人と特定の刺激の両方でこれを行うことができる。ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。
論文参考訳（メタデータ） (2021-03-05T20:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。