Fugu-MT 論文翻訳(概要): Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning

論文の概要: Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning

arxiv url: http://arxiv.org/abs/2603.18758v1
Date: Thu, 19 Mar 2026 11:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.104618
Title: Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning
Title（参考訳）: ビデオ学習における話者表現性からの影響的エンゲージメントと声道誘引性の2モデル予測
Authors: Hung-Yue Suen, Kuo-En Hung, Fan-Hsun Tseng,
Abstract要約: 本稿では、聴衆のエンゲージメントと声の魅力を予測できる機械学習対応の話者中心型感情AIアプローチについて概説する。この話者中心のEmotion AIアプローチには、2つの異なる回帰モデルが含まれている。
参考スコア（独自算出の注目度）: 1.338174941551702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper outlines a machine learning-enabled speaker-centric Emotion AI approach capable of predicting audience-affective engagement and vocal attractiveness in asynchronous video-based learning, relying solely on speaker-side affective expressions. Inspired by the demand for scalable, privacy-preserving affective computing applications, this speaker-centric Emotion AI approach incorporates two distinct regression models that leverage a massive corpus developed within Massive Open Online Courses (MOOCs) to enable affectively engaging experiences. The regression model predicting affective engagement is developed by assimilating emotional expressions emanating from facial dynamics, oculomotor features, prosody, and cognitive semantics, while incorporating a second regression model to predict vocal attractiveness based exclusively on speaker-side acoustic features. Notably, on speaker-independent test sets, both regression models yielded impressive predictive performance (R2 = 0.85 for affective engagement and R2 = 0.88 for vocal attractiveness), confirming that speaker-side affect can functionally represent aggregated audience feedback. This paper provides a speaker-centric Emotion AI approach substantiated by an empirical study discovering that speaker-side multimodal features, including acoustics, can prospectively forecast audience feedback without necessarily employing audience-side input information.
Abstract（参考訳）: 本稿では,話者中心の感情表現のみに頼って,非同期ビデオ学習における聴衆影響のエンゲージメントと声の魅力を予測できる,機械学習対応の話者中心型感情AIアプローチの概要を述べる。この話者中心のEmotion AIアプローチは、スケーラブルでプライバシー保護された感情的コンピューティングアプリケーションへの需要に触発され、MOOC(Massive Open Online Courses)内で開発された巨大なコーパスを活用する2つの異なる回帰モデルを導入し、感情的なエンゲージメントな体験を可能にする。感情的エンゲージメントを予測する回帰モデルは、表情力学、オキュロモータ特徴、韻律、認知意味論から生じる感情表現を同化し、第2回帰モデルは、話者側音響特徴のみに基づく声の魅力を予測する。特に、話者に依存しないテストセットでは、両方の回帰モデルが印象的な予測性能(感情的エンゲージメントはR2 = 0.85、声の魅力はR2 = 0.88)を得た。本稿では、音響を含む話者側のマルチモーダル特徴が、必ずしも聴衆側の入力情報を活用することなく、聴衆のフィードバックを予測できることを経験的研究によって実証した、話者中心の感情AIアプローチを提案する。

関連論文リスト

Investigation for Relative Voice Impression Estimation [16.024524623990484]
本研究では,相対音声印象推定(RIE)について検討する。 RIEは、同一話者から2つの発話の知覚的差異を予測するためのフレームワークである。音声の感情認識によく用いられる古典的音響特徴,自己教師型音声表現,マルチモーダル大言語モデル,の3つの手法を比較した。
論文参考訳（メタデータ） (2026-02-15T14:54:52Z)
ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation [30.006550552714938]
共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
論文参考訳（メタデータ） (2026-01-16T10:26:50Z)
A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。 IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。 HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:07:30Z)
Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。 IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文参考訳（メタデータ） (2025-06-07T14:52:58Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文参考訳（メタデータ） (2023-09-22T08:54:06Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。