Fugu-MT 論文翻訳(概要): The Singing Voice Conversion Challenge 2023

論文の概要: The Singing Voice Conversion Challenge 2023

arxiv url: http://arxiv.org/abs/2306.14422v1
Date: Mon, 26 Jun 2023 05:04:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:53:15.869277
Title: The Singing Voice Conversion Challenge 2023
Title（参考訳）: 歌声変換チャレンジ2023
Authors: Wen-Chin Huang, Lester Phillip Violeta, Songxiang Liu, Jiatong Shi, Yusuke Yasuda, Tomoki Toda
Abstract要約: 今年私たちは、歌声変換(SVC)に焦点を移しました。新しいデータベースは、ドメイン内およびドメイン間SVCという2つのタスクのために構築された。両課題において,トップシステムによって人間レベルの自然性が達成されたにもかかわらず,目標話者ほど類似度スコアが得られなかった。
参考スコア（独自算出の注目度）: 37.726879395053395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the latest iteration of the voice conversion challenge (VCC) series, a bi-annual scientific event aiming to compare and understand different voice conversion (VC) systems based on a common dataset. This year we shifted our focus to singing voice conversion (SVC), thus named the challenge the Singing Voice Conversion Challenge (SVCC). A new database was constructed for two tasks, namely in-domain and cross-domain SVC. The challenge was run for two months, and in total we received 26 submissions, including 2 baselines. Through a large-scale crowd-sourced listening test, we observed that for both tasks, although human-level naturalness was achieved by the top system, no team was able to obtain a similarity score as high as the target speakers. Also, as expected, cross-domain SVC is harder than in-domain SVC, especially in the similarity aspect. We also investigated whether existing objective measurements were able to predict perceptual performance, and found that only few of them could reach a significant correlation.
Abstract（参考訳）: 本稿では,共通データセットに基づく異なる音声変換(VC)システムの比較と理解を目的とした,二年制の科学イベントであるVCCシリーズの最新版を紹介する。今年はsvc(singing voice conversion challenge)に焦点を移し、the challenge the singing voice conversion challenge(svcc)と命名しました。新しいデータベースはドメイン内およびドメイン間SVCという2つのタスクのために構築された。チャレンジは2ヶ月間実施され、合計26の応募があり、2つのベースラインがありました。クラウドソースによる大規模なリスニングテストを通じて,人間レベルの自然性はトップシステムによって達成されたが,目標とする話者ほど高い類似度スコアを得ることはできなかった。また、予想通り、ドメイン間SVCは、特に類似性の観点から、ドメイン内SVCよりも難しい。また,既存の客観的測定値が知覚的パフォーマンスを予測できたかを調査し,有意な相関が得られたのはごくわずかであった。

関連論文リスト

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。 TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。 TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文参考訳（メタデータ） (2025-08-19T08:31:15Z)
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-06-09T08:34:01Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023 [40.48355334150661]
本稿では,歌唱音声変換チャレンジ(SVCC)2023について述べる。ドメイン内およびドメイン内の両方の英語歌唱音声変換タスクに対して、自己教師付き学習に基づく表現を用いた認識合成アプローチを採用する。 SVCC 2023 による大規模リスニング試験の結果,我々のT13 システムは,難易度の高いクロスドメイン SVC に対して,競合自然性および話者類似性を実現していることがわかった。
論文参考訳（メタデータ） (2023-10-08T15:30:44Z)
Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-10-20T08:47:35Z)
The 2021 NIST Speaker Recognition Evaluation [1.5282767384702267]
2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
論文参考訳（メタデータ） (2022-04-21T16:18:52Z)
Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文参考訳（メタデータ） (2021-12-08T17:50:26Z)
NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文参考訳（メタデータ） (2021-07-02T16:55:08Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Should we hard-code the recurrence concept or learn it instead ? Exploring the Transformer architecture for Audio-Visual Speech Recognition [10.74796391075403]
本稿では,最近提案されたTransformerブロックに,Long Short-term Memory(LSTM)ブロックを置き換えた AV Align の変種について述べる。また,トランスフォーマーはクロスモーダルなモノトニックアライメントも学習するが,LSTMモデルと同じ視覚収束問題に悩まされている。
論文参考訳（メタデータ） (2020-05-19T09:06:39Z)
Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文参考訳（メタデータ） (2020-05-18T04:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。