論文の概要: Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice
Conversion
- arxiv url: http://arxiv.org/abs/2311.08104v1
- Date: Tue, 14 Nov 2023 12:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:29:00.960106
- Title: Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice
Conversion
- Title(参考訳): Reimagining Speech:Deep Learning-Powered Voice Conversionのスコーピングレビュー
- Authors: Anders R. Bargum, Stefania Serafin, Cumhur Erkut
- Abstract要約: 本稿では,現代の音声変換システムにおける音声分析,合成,非絡み合った音声表現学習における深層学習の利用について検討する。
2017年から2023年の間に38以上の会場から621の出版物をスクリーニングし、続いて123の論文からなる最終データベースの詳細なレビューを行った。
我々は、ディープラーニングに基づく音声変換において最も頻繁に使用されるアプローチを要約し、コミュニティ内の共通の落とし穴を強調する。
- 参考スコア(独自算出の注目度): 2.8034840754506214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on deep learning-powered voice conversion (VC) in speech-to-speech
scenarios is getting increasingly popular. Although many of the works in the
field of voice conversion share a common global pipeline, there is a
considerable diversity in the underlying structures, methods, and neural
sub-blocks used across research efforts. Thus, obtaining a comprehensive
understanding of the reasons behind the choice of the different methods in the
voice conversion pipeline can be challenging, and the actual hurdles in the
proposed solutions are often unclear. To shed light on these aspects, this
paper presents a scoping review that explores the use of deep learning in
speech analysis, synthesis, and disentangled speech representation learning
within modern voice conversion systems. We screened 621 publications from more
than 38 different venues between the years 2017 and 2023, followed by an
in-depth review of a final database consisting of 123 eligible studies. Based
on the review, we summarise the most frequently used approaches to voice
conversion based on deep learning and highlight common pitfalls within the
community. Lastly, we condense the knowledge gathered, identify main challenges
and provide recommendations for future research directions.
- Abstract(参考訳): 音声合成における深層学習型音声変換(VC)の研究は、ますます人気が高まっている。
音声変換の分野における多くの研究は、共通のグローバルパイプラインを共有しているが、基礎となる構造、方法、神経サブブロックには、研究活動全体でかなりの多様性がある。
したがって、音声変換パイプラインにおける異なる方法の選択の背後にある理由の包括的理解を得ることは困難であり、提案手法における実際のハードルはしばしば不明確である。
本稿では,現代の音声変換システムにおける音声分析,合成,非絡み合った音声表現学習における深層学習の利用を探求するスコーピング・レビューを提案する。
2017年から2023年の間に38以上の会場から621の出版物をスクリーニングし、続いて123の論文からなる最終データベースの詳細なレビューを行った。
このレビューに基づいて,ディープラーニングに基づく音声変換の最も頻繁に使用されるアプローチを要約し,コミュニティ内で共通する落とし穴を浮き彫りにする。
最後に,収集した知識を集約し,主な課題を特定し,今後の研究方向性を提言する。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Towards Investigating Biases in Spoken Conversational Search [10.120634413661929]
画面ベースのWeb検索において,バイアスやユーザの態度の変化がどのように研究されているかを検討する。
本研究では,音声を用いた音声対話検索において,変数,データ,機器の偏りを探索する実験的な設定を提案する。
論文 参考訳(メタデータ) (2024-09-02T01:54:33Z) - Transformers in Speech Processing: A Survey [4.984401393225283]
トランスフォーマーは、音声認識、音声合成、音声翻訳、音声パラ言語学、音声強調、音声対話システム、マルチモーダルアプリケーションなど、様々な音声関連領域で注目を集めている。
本稿では,音声技術における様々な分野の研究を橋渡しすることを目的とした包括的調査を行う。
論文 参考訳(メタデータ) (2023-03-21T06:00:39Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。