論文の概要: VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking
- arxiv url: http://arxiv.org/abs/2001.07876v1
- Date: Wed, 22 Jan 2020 04:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:59:19.996207
- Title: VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking
- Title(参考訳): VoiceCoach: 公開講演における対話的エビデンスに基づく音声変調スキルトレーニング
- Authors: Xingbo Wang, Haipeng Zeng, Yong Wang, Aoyu Wu, Zhida Sun, Xiaojuan Ma,
Huamin Qu
- Abstract要約: ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
- 参考スコア(独自算出の注目度): 55.366941476863644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The modulation of voice properties, such as pitch, volume, and speed, is
crucial for delivering a successful public speech. However, it is challenging
to master different voice modulation skills. Though many guidelines are
available, they are often not practical enough to be applied in different
public speaking situations, especially for novice speakers. We present
VoiceCoach, an interactive evidence-based approach to facilitate the effective
training of voice modulation skills. Specifically, we have analyzed the voice
modulation skills from 2623 high-quality speeches (i.e., TED Talks) and use
them as the benchmark dataset. Given a voice input, VoiceCoach automatically
recommends good voice modulation examples from the dataset based on the
similarity of both sentence structures and voice modulation skills. Immediate
and quantitative visual feedback is provided to guide further improvement. The
expert interviews and the user study provide support for the effectiveness and
usability of VoiceCoach.
- Abstract(参考訳): ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
しかし、異なる音声変調スキルを習得することは困難である。
多くのガイドラインが利用可能であるが、特に初心者の話者に対して、様々な公的な状況に適用できるほど実用的ではないことが多い。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
具体的には、2623の高品質音声(TED Talks)から音声変調スキルを分析し、ベンチマークデータセットとして使用した。
音声入力が与えられると、voicecoachは、文構造と音声変調スキルの両方の類似性に基づいて、データセットから適切な音声変調例を自動的に推奨する。
さらなる改善を導くため、即時かつ定量的な視覚フィードバックが提供される。
エキスパートインタビューとユーザスタディは、ボイスコーチの有効性とユーザビリティのサポートを提供する。
関連論文リスト
- VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。
VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。
大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-22T17:15:20Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文 参考訳(メタデータ) (2023-12-22T10:00:24Z) - PerMod: Perceptually Grounded Voice Modification with Latent Diffusion
Models [5.588733538696248]
PerModは、入力音声と知覚品質ベクトルを取り込む条件付き潜在拡散モデルである。
以前の作業とは異なり、PerModは特定の知覚的修正に対応する新しい音声を生成する。
我々は、PerModが典型音声に対して望まれる知覚特性を持つ音声を生成するが、非典型音声では不十分であることを示す。
論文 参考訳(メタデータ) (2023-12-13T20:14:27Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。