論文の概要: Analysis and Utilization of Entrainment on Acoustic and Emotion Features
in User-agent Dialogue
- arxiv url: http://arxiv.org/abs/2212.03398v1
- Date: Wed, 7 Dec 2022 01:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:52:01.204712
- Title: Analysis and Utilization of Entrainment on Acoustic and Emotion Features
in User-agent Dialogue
- Title(参考訳): ユーザエージェント対話における音響的・感情的特徴の分析と活用
- Authors: Daxin Tan, Nikos Kargas, David McHardy, Constantinos Papayiannis,
Antonio Bonafonte, Marek Strelec, Jonas Rohnke, Agis Oikonomou Filandras,
Trevor Wood
- Abstract要約: まず,人間同士の対話におけるエントレメント現象の存在について検討する。
分析の結果,音響的特徴と感情的特徴の両面において,エントレーニングの強い証拠が得られた。
本研究では,2つの訓練ポリシーを実装し,テキスト音声(TTS)システムへの学習原則の統合により,合成性能とユーザエクスペリエンスが向上するかどうかを評価する。
- 参考スコア(独自算出の注目度): 8.933468765800518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entrainment is the phenomenon by which an interlocutor adapts their speaking
style to align with their partner in conversations. It has been found in
different dimensions as acoustic, prosodic, lexical or syntactic. In this work,
we explore and utilize the entrainment phenomenon to improve spoken dialogue
systems for voice assistants. We first examine the existence of the entrainment
phenomenon in human-to-human dialogues in respect to acoustic feature and then
extend the analysis to emotion features. The analysis results show strong
evidence of entrainment in terms of both acoustic and emotion features. Based
on this findings, we implement two entrainment policies and assess if the
integration of entrainment principle into a Text-to-Speech (TTS) system
improves the synthesis performance and the user experience. It is found that
the integration of the entrainment principle into a TTS system brings
performance improvement when considering acoustic features, while no obvious
improvement is observed when considering emotion features.
- Abstract(参考訳): イントレメント(entrainment)とは、会話の相手と協調するために、会話者同士が話すスタイルに適応する現象である。
音響的、韻律的、語彙的、あるいは構文的に異なる次元で発見されている。
本研究では,音声アシスタントの音声対話システムを改善するために,学習現象を探索し,活用する。
まず,人間同士の対話において,音響的特徴に関するエントレメント現象の存在を考察し,その分析を感情的特徴に拡張する。
分析の結果,音響的特徴と感情的特徴の両面において強いエントレーニングの証拠が得られた。
そこで本研究では,2つのトレーニングポリシを実装し,テキスト音声(TTS)システムに統合することで,合成性能とユーザエクスペリエンスが向上するかどうかを評価する。
TTSシステムへのエントレメント原理の統合は、音響的特徴を考慮した場合の性能改善をもたらすが、感情的特徴を考慮した場合の明らかな改善は見つからない。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Acknowledgment of Emotional States: Generating Validating Responses for
Empathetic Dialogue [21.621844911228315]
本研究は,共感的対話を有効活用するための最初の枠組みを紹介する。
本手法では,1)検証タイミング検出,2)ユーザの感情状態の同定,3)応答生成の検証を行う。
論文 参考訳(メタデータ) (2024-02-20T07:20:03Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。