論文の概要: ClonEval: An Open Voice Cloning Benchmark
- arxiv url: http://arxiv.org/abs/2504.20581v1
- Date: Tue, 29 Apr 2025 09:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.826891
- Title: ClonEval: An Open Voice Cloning Benchmark
- Title(参考訳): ClonEval: オープンな音声クローンベンチマーク
- Authors: Iwona Christop, Tomasz Kuczyński, Marek Kubis,
- Abstract要約: 音声合成音声合成モデルのための新しいベンチマークを提案する。
このベンチマークは、評価プロトコル、音声クローンモデルの性能を評価するためのオープンソースのライブラリ、および付随するリーダーボードで構成されている。
- 参考スコア(独自算出の注目度): 0.4681661603096333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel benchmark for voice cloning text-to-speech models. The benchmark consists of an evaluation protocol, an open-source library for assessing the performance of voice cloning models, and an accompanying leaderboard. The paper discusses design considerations and presents a detailed description of the evaluation procedure. The usage of the software library is explained, along with the organization of results on the leaderboard.
- Abstract(参考訳): 音声合成音声合成モデルのための新しいベンチマークを提案する。
このベンチマークは、評価プロトコル、音声クローンモデルの性能を評価するためのオープンソースのライブラリ、および付随するリーダーボードで構成されている。
本稿では,設計の考察と評価手順の詳細な記述について述べる。
ソフトウェアライブラリの使用状況と,リーダボード上の結果の整理について説明する。
関連論文リスト
- WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - Salmon: A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - Speech vs. Transcript: Does It Matter for Human Annotators in Speech Summarization? [35.71047777304832]
録音を聴くアノテータに基づく要約は、アノテータが書き起こしを読むものとは異なるかを検討する。
音声に基づく要約は、転写文に基づく要約よりも、現実的に一貫性があり、情報選択的であることが判明した。
論文 参考訳(メタデータ) (2024-08-12T13:25:53Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。
音声合成と音声合成の2つの課題に適用する。
どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。
評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文 参考訳(メタデータ) (2023-12-21T17:47:33Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Controllable Abstractive Dialogue Summarization with Sketch Supervision [56.59357883827276]
本モデルは,最大50.79のROUGE-Lスコアを持つ最大対話要約コーパスSAMSumの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-28T19:05:36Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - An Evaluation Protocol for Generative Conversational Systems [3.2858262572939148]
我々は,対話モデル評価のためのプロトコルを,頭部対対比較を用いて構築した。
我々は,5つの評価データセットを用いて,2対のヘッド・ツー・ヘッド性能(ウィン・ロス・ティー)を用いて最先端性能を主張する最近の10つのモデルを分析する。
論文 参考訳(メタデータ) (2020-10-24T01:59:49Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。