論文の概要: ADVOSYNTH: A Synthetic Multi-Advocate Dataset for Speaker Identification in Courtroom Scenarios
- arxiv url: http://arxiv.org/abs/2601.10315v1
- Date: Thu, 15 Jan 2026 11:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.121356
- Title: ADVOSYNTH: A Synthetic Multi-Advocate Dataset for Speaker Identification in Courtroom Scenarios
- Title(参考訳): ADVOSYNTH: 裁判所シナリオにおける話者識別のための合成マルチアドボケートデータセット
- Authors: Aniket Deroy,
- Abstract要約: 本稿では,100の合成音声ファイルからなる特別なデータセットであるAdvosynth-500について紹介する。
また,Speech Llama Omniモデルを用いて,裁判所の議論に携わる5つの異なる支持者ペアをシミュレートした。
提案者ごとに特定の発声特性を定義し, 話者識別課題を提示し, 音声ファイルをそれぞれの合成原点にマッピングする現代システムの能力を評価する。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large-scale speech-to-speech models achieve high fidelity, the distinction between synthetic voices in structured environments becomes a vital area of study. This paper introduces Advosynth-500, a specialized dataset comprising 100 synthetic speech files featuring 10 unique advocate identities. Using the Speech Llama Omni model, we simulate five distinct advocate pairs engaged in courtroom arguments. We define specific vocal characteristics for each advocate and present a speaker identification challenge to evaluate the ability of modern systems to map audio files to their respective synthetic origins. Dataset is available at this link-https: //github.com/naturenurtureelite/ADVOSYNTH-500.
- Abstract(参考訳): 大規模音声音声合成モデルは高い忠実度を達成するため、構造化環境における合成音声の区別が重要な研究領域となる。
本稿では,100の合成音声ファイルからなる特別なデータセットであるAdvosynth-500について紹介する。
また,Speech Llama Omniモデルを用いて,裁判所の議論に携わる5つの異なる支持者ペアをシミュレートした。
提案者ごとに特定の発声特性を定義し, 話者識別課題を提示し, 音声ファイルをそれぞれの合成原点にマッピングする現代システムの能力を評価する。
Datasetは、このlink-https: //github.com/naturenurtureelite/ADVOSYNTH-500で利用可能である。
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis [21.245160899212774]
本稿では,音声サンプルの真正性,合成性,部分的偽造性を広範囲に網羅し,音声・フォレンジスデータセットを提案する。
我々はまた、認証検出、複数の偽セグメントのローカライゼーション、アルゴリズム認識を同時に行うことを目的とした、TEST(TEmporal Speech LocalizaTion Network)を提案する。
平均mAPは83.55%,EERは5.25%である。
論文 参考訳(メタデータ) (2024-12-12T07:48:17Z) - A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。
このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文 参考訳(メタデータ) (2024-09-02T05:09:46Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。