Fugu-MT 論文翻訳(概要): VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking

論文の概要: VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking

arxiv url: http://arxiv.org/abs/2001.07876v1
Date: Wed, 22 Jan 2020 04:52:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 18:59:19.996207
Title: VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking
Title（参考訳）: VoiceCoach: 公開講演における対話的エビデンスに基づく音声変調スキルトレーニング
Authors: Xingbo Wang, Haipeng Zeng, Yong Wang, Aoyu Wu, Zhida Sun, Xiaojuan Ma, Huamin Qu
Abstract要約: ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
参考スコア（独自算出の注目度）: 55.366941476863644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The modulation of voice properties, such as pitch, volume, and speed, is crucial for delivering a successful public speech. However, it is challenging to master different voice modulation skills. Though many guidelines are available, they are often not practical enough to be applied in different public speaking situations, especially for novice speakers. We present VoiceCoach, an interactive evidence-based approach to facilitate the effective training of voice modulation skills. Specifically, we have analyzed the voice modulation skills from 2623 high-quality speeches (i.e., TED Talks) and use them as the benchmark dataset. Given a voice input, VoiceCoach automatically recommends good voice modulation examples from the dataset based on the similarity of both sentence structures and voice modulation skills. Immediate and quantitative visual feedback is provided to guide further improvement. The expert interviews and the user study provide support for the effectiveness and usability of VoiceCoach.
Abstract（参考訳）: ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。しかし、異なる音声変調スキルを習得することは困難である。多くのガイドラインが利用可能であるが、特に初心者の話者に対して、様々な公的な状況に適用できるほど実用的ではないことが多い。音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。具体的には、2623の高品質音声(TED Talks)から音声変調スキルを分析し、ベンチマークデータセットとして使用した。音声入力が与えられると、voicecoachは、文構造と音声変調スキルの両方の類似性に基づいて、データセットから適切な音声変調例を自動的に推奨する。さらなる改善を導くため、即時かつ定量的な視覚フィードバックが提供される。エキスパートインタビューとユーザスタディは、ボイスコーチの有効性とユーザビリティのサポートを提供する。

関連論文リスト

A Unified Model For Voice and Accent Conversion In Speech and Singing using Self-Supervised Learning and Feature Extraction [0.0]
本稿では,話し声と歌声の両方を変換できる新しい音声変換モデルを提案する。このモデルの特長の1つは、ハイブリッド音声サンプルでアクセント変換を行う能力である。
論文参考訳（メタデータ） (2024-12-11T11:47:39Z)
VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。 VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-22T17:15:20Z)
Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T20:27:34Z)
Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文参考訳（メタデータ） (2023-12-22T10:00:24Z)
PerMod: Perceptually Grounded Voice Modification with Latent Diffusion Models [5.588733538696248]
PerModは、入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルである。以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。我々は、PerModが典型音声に対して望まれる知覚特性を持つ音声を生成するが、非典型音声では不十分であることを示す。
論文参考訳（メタデータ） (2023-12-13T20:14:27Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文参考訳（メタデータ） (2023-02-16T08:10:41Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文参考訳（メタデータ） (2022-03-31T10:45:32Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)
JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文参考訳（メタデータ） (2020-08-08T12:22:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。