論文の概要: Representation of perceived prosodic similarity of conversational feedback
- arxiv url: http://arxiv.org/abs/2505.13268v1
- Date: Mon, 19 May 2025 15:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.712542
- Title: Representation of perceived prosodic similarity of conversational feedback
- Title(参考訳): 会話フィードバックの韻律的類似感の表現
- Authors: Livia Qian, Carol Figueroa, Gabriel Skantze,
- Abstract要約: スペクトルおよび自己教師型音声表現は、抽出されたピッチ特徴よりも韻律を符号化する。
コントラスト学習を通じて、人間の知覚に表現をさらに凝縮し、整列させることが可能である。
- 参考スコア(独自算出の注目度): 3.7277730514654555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocal feedback (e.g., `mhm', `yeah', `okay') is an important component of spoken dialogue and is crucial to ensuring common ground in conversational systems. The exact meaning of such feedback is conveyed through both lexical and prosodic form. In this work, we investigate the perceived prosodic similarity of vocal feedback with the same lexical form, and to what extent existing speech representations reflect such similarities. A triadic comparison task with recruited participants is used to measure perceived similarity of feedback responses taken from two different datasets. We find that spectral and self-supervised speech representations encode prosody better than extracted pitch features, especially in the case of feedback from the same speaker. We also find that it is possible to further condense and align the representations to human perception through contrastive learning.
- Abstract(参考訳): 音声フィードバック(eg, `mhm', `yeah', `okay')は音声対話の重要な構成要素であり,会話システムにおける共通基盤の確保に不可欠である。
このようなフィードバックの正確な意味は、語彙形と韻律形の両方を通して伝えられる。
本研究では,同じ語彙の音声フィードバックの韻律的類似性について検討し,既存の音声表現が如何にそのような類似性を反映しているかを検討する。
2つの異なるデータセットから得られたフィードバック応答の知覚的類似度を測定するために、採用参加者との3進的比較タスクが使用される。
スペクトルおよび自己教師型音声表現は、特に同一話者からのフィードバックの場合、抽出されたピッチ特徴よりも韻律を符号化する。
また、コントラスト学習を通じて、人間の知覚に表現をさらに凝縮し、整列させることが可能であることも見出した。
関連論文リスト
- ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation [4.216085185442862]
対面対話では, 文脈的要因によって, 話し言葉の形式的意味の関係が変化する。
ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法
本稿では,自己指導型コントラスト学習技術を用いて,骨格情報と音声情報からジェスチャー表現を学習する。
論文 参考訳(メタデータ) (2024-08-31T08:53:18Z) - The Curious Case of Representational Alignment: Unravelling Visio-Linguistic Tasks in Emergent Communication [1.3499500088995464]
エージェント画像表現とエージェント表現と入力画像との表現アライメントを評価する。
我々は,構成性の共通指標である,エージェント間のアライメントと地形的類似性の強い関係を同定する。
本研究は,言語出現のシミュレーションにおいて,表現的アライメントが果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-07-25T11:29:27Z) - Joint Learning of Context and Feedback Embeddings in Spoken Dialogue [3.8673630752805446]
コントラスト学習目標を用いて,同じ表現空間に短い対話コンテキストとフィードバック応答を埋め込む可能性を検討する。
実験結果から,本モデルは人間に同じランキングタスクを施し,学習された埋め込みはフィードバック応答の会話機能に関する情報を伝達することがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:22:37Z) - Interpretable Measures of Conceptual Similarity by
Complexity-Constrained Descriptive Auto-Encoding [112.0878081944858]
画像間の類似度を定量化することは、画像ベースの機械学習にとって重要な著作権問題である。
我々は,高次関係を捉えた画像間での「概念的類似性」の概念を定義し,計算することを目指している。
2つの非常に異種な画像は、その記述の早い段階で識別できるが、概念的に異種な画像は、より詳細を区別する必要がある。
論文 参考訳(メタデータ) (2024-02-14T03:31:17Z) - Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention [4.103438743479001]
主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
論文 参考訳(メタデータ) (2021-04-26T20:46:54Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。