論文の概要: The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2601.13835v1
- Date: Tue, 20 Jan 2026 10:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.26919
- Title: The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations
- Title(参考訳): 自己教師付き音声表現を用いたターンタイキングにおける韻律的・語彙的キューの役割
- Authors: Sam OConnor Russell, Delphine Charuau, Naomi Harte,
- Abstract要約: 音声の韻律や語彙を従来よりもクリーンに制御するためのボコーダに基づくアプローチを提案する。
韻律に整合した無知雑音の予測はクリーン音声の精度に類似していることが判明した。
将来のモデルはプロソディのみを必要とし、プライバシと潜在的なパフォーマンスのメリットを提供する。
- 参考スコア(独自算出の注目度): 12.437380242479106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fluid turn-taking remains a key challenge in human-robot interaction. Self-supervised speech representations (S3Rs) have driven many advances, but it remains unclear whether S3R-based turn-taking models rely on prosodic cues, lexical cues or both. We introduce a vocoder-based approach to control prosody and lexical cues in speech more cleanly than prior work. This allows us to probe the voice-activity projection model, an S3R-based turn-taking model. We find that prediction on prosody-matched, unintelligible noise is similar to accuracy on clean speech. This reveals both prosodic and lexical cues support turn-taking, but either can be used in isolation. Hence, future models may only require prosody, providing privacy and potential performance benefits. When either prosodic or lexical information is disrupted, the model exploits the other without further training, indicating they are encoded in S3Rs with limited interdependence. Results are consistent in CPC-based and wav2vec2.0 S3Rs. We discuss our findings and highlight a number of directions for future work. All code is available to support future research.
- Abstract(参考訳): 流体の回転は人間とロボットの相互作用において重要な課題である。
自己教師付き音声表現(S3R)は多くの進歩を導いているが、S3Rベースのターンテイクモデルが韻律的手がかり、語彙的手がかり、あるいはその両方に依存しているかどうかは不明である。
音声の韻律や語彙を従来よりもクリーンに制御するためのボコーダに基づくアプローチを提案する。
これにより,S3Rに基づくターンテイクモデルである音声活動予測モデルを探索することができる。
韻律に整合した無知雑音の予測はクリーン音声の精度に類似していることが判明した。
これは韻律と語彙の両方がターンテイクをサポートするが、どちらも単独で使用することができる。
したがって、将来のモデルはプロソディのみを必要とし、プライバシと潜在的なパフォーマンスのメリットを提供する。
韻律的情報または語彙的情報が破壊されると、モデルは更なる訓練をせずに他方を搾取し、相互依存の少ないS3Rに符号化されることを示す。
結果はCPCベースとwav2vec2.0 S3Rsで一致している。
研究成果を議論し、今後の研究の方向性を強調します。
すべてのコードは、将来の研究をサポートするために利用可能である。
関連論文リスト
- RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Disentangling Prosody Representations with Unsupervised Speech
Reconstruction [22.873286925385543]
本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。
具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
論文 参考訳(メタデータ) (2022-12-14T01:37:35Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Double Articulation Analyzer with Prosody for Unsupervised Word and
Phoneme Discovery [5.4237049671871]
幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。
本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。
本研究では, 統計的情報と韻律情報を用いて, 連続した人間の音声信号から直接, 韻律DAAが単語を発見できることを示す。
論文 参考訳(メタデータ) (2021-03-15T08:17:44Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。