論文の概要: The ART of Conversation: Measuring Phonetic Convergence and Deliberate
Imitation in L2-Speech with a Siamese RNN
- arxiv url: http://arxiv.org/abs/2306.05088v1
- Date: Thu, 8 Jun 2023 10:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:55:04.381667
- Title: The ART of Conversation: Measuring Phonetic Convergence and Deliberate
Imitation in L2-Speech with a Siamese RNN
- Title(参考訳): 会話のART:シームズRNNを用いたL2音声における音声の収束と熟考の測定
- Authors: Zheng Yuan (1 and 2), Aldo Pastore (1 and 2), Dorina de Jong (1 and
2), Hao Xu (3), Luciano Fadiga (1 and 2), Alessandro D'Ausilio (1 and 2) ((1)
Istituto Italiano di Tecnologia, Italy, (2) Universit\`a degli Studi di
Ferrara, Italy, (3) University of California San Diego, USA)
- Abstract要約: 音声収束は会話における2つの対話者の自動的および無意識的な音声適応を記述する。
本稿では,L2-L2相互作用における音声の総合スペクトル特性の収束度を測定するために,シームズ再帰型ニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 40.96261204117952
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Phonetic convergence describes the automatic and unconscious speech
adaptation of two interlocutors in a conversation. This paper proposes a
Siamese recurrent neural network (RNN) architecture to measure the convergence
of the holistic spectral characteristics of speech sounds in an L2-L2
interaction. We extend an alternating reading task (the ART) dataset by adding
20 native Slovak L2 English speakers. We train and test the Siamese RNN model
to measure phonetic convergence of L2 English speech from three different
native language groups: Italian (9 dyads), French (10 dyads) and Slovak (10
dyads). Our results indicate that the Siamese RNN model effectively captures
the dynamics of phonetic convergence and the speaker's imitation ability.
Moreover, this text-independent model is scalable and capable of handling
L1-induced speaker variability.
- Abstract(参考訳): 音声収束は会話における2つの対話者の自動的および無意識的な音声適応を記述する。
本稿では,L2-L2相互作用における音声の総観スペクトル特性の収束度を測定するため,Syamese Recurrent Neural Network (RNN)アーキテクチャを提案する。
スロバキア語l2母語話者20名を追加して,交互読解課題(art)データセットを拡張した。
我々は、イタリア語 (9 dyads) 、フランス語 (10 dyads) 、スロバキア (10 dyads) の3つの母国語群からL2英語の音声収束を測定するために、シームズRNNモデルを訓練し、試験した。
この結果から,シームズRNNモデルは音韻収束のダイナミクスと話者の模倣能力を効果的に捉えることが示唆された。
さらに、このテキスト非依存モデルはスケーラブルであり、L1による話者変動を処理できる。
関連論文リスト
- SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。