論文の概要: A Novel Scheme to classify Read and Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2306.08012v1
- Date: Tue, 13 Jun 2023 11:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:20:46.154006
- Title: A Novel Scheme to classify Read and Spontaneous Speech
- Title(参考訳): 朗読音声と自発音声を分類する新しい手法
- Authors: Sunil Kumar Kopparapu
- Abstract要約: 本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。
提案手法では,DeepSpeechオーディオ・アルファベット認識エンジンを事前訓練した。
- 参考スコア(独自算出の注目度): 15.542726069501231
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The COVID-19 pandemic has led to an increased use of remote telephonic
interviews, making it important to distinguish between scripted and spontaneous
speech in audio recordings. In this paper, we propose a novel scheme for
identifying read and spontaneous speech. Our approach uses a pre-trained
DeepSpeech audio-to-alphabet recognition engine to generate a sequence of
alphabets from the audio. From these alphabets, we derive features that allow
us to discriminate between read and spontaneous speech. Our experimental
results show that even a small set of self-explanatory features can effectively
classify the two types of speech very effectively.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックにより、遠隔での電話インタビューの利用が増加し、音声録音におけるスクリプト付き音声と自発的音声の区別が重要になった。
本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。
提案手法では,事前学習したDeepSpeechオーディオ・アルファベット認識エンジンを用いて,音声からアルファベット列を生成する。
これらのアルファベットから、読み出しと自発的な音声の区別を可能にする特徴を導出する。
実験結果から,少数の自己説明的特徴でも2種類の音声を効果的に分類できることが示唆された。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input [16.82591185507251]
発声コマンドと音声入力に必要なテキストを区別する簡単な方法はない。
記号やコマンドの入力も、それらがテキスト文字として誤解される可能性があるため、難しい。
本研究では,DualVoiceと呼ばれる音声対話手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T13:01:28Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。