論文の概要: ADVOSYNTH: A Synthetic Multi-Advocate Dataset for Speaker Identification in Courtroom Scenarios
- arxiv url: http://arxiv.org/abs/2601.10315v1
- Date: Thu, 15 Jan 2026 11:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.121356
- Title: ADVOSYNTH: A Synthetic Multi-Advocate Dataset for Speaker Identification in Courtroom Scenarios
- Title(参考訳): ADVOSYNTH: 裁判所シナリオにおける話者識別のための合成マルチアドボケートデータセット
- Authors: Aniket Deroy,
- Abstract要約: 本稿では,100の合成音声ファイルからなる特別なデータセットであるAdvosynth-500について紹介する。
また,Speech Llama Omniモデルを用いて,裁判所の議論に携わる5つの異なる支持者ペアをシミュレートした。
提案者ごとに特定の発声特性を定義し, 話者識別課題を提示し, 音声ファイルをそれぞれの合成原点にマッピングする現代システムの能力を評価する。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large-scale speech-to-speech models achieve high fidelity, the distinction between synthetic voices in structured environments becomes a vital area of study. This paper introduces Advosynth-500, a specialized dataset comprising 100 synthetic speech files featuring 10 unique advocate identities. Using the Speech Llama Omni model, we simulate five distinct advocate pairs engaged in courtroom arguments. We define specific vocal characteristics for each advocate and present a speaker identification challenge to evaluate the ability of modern systems to map audio files to their respective synthetic origins. Dataset is available at this link-https: //github.com/naturenurtureelite/ADVOSYNTH-500.
- Abstract(参考訳): 大規模音声音声合成モデルは高い忠実度を達成するため、構造化環境における合成音声の区別が重要な研究領域となる。
本稿では,100の合成音声ファイルからなる特別なデータセットであるAdvosynth-500について紹介する。
また,Speech Llama Omniモデルを用いて,裁判所の議論に携わる5つの異なる支持者ペアをシミュレートした。
提案者ごとに特定の発声特性を定義し, 話者識別課題を提示し, 音声ファイルをそれぞれの合成原点にマッピングする現代システムの能力を評価する。
Datasetは、このlink-https: //github.com/naturenurtureelite/ADVOSYNTH-500で利用可能である。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - MENASpeechBank: A Reference Voice Bank with Persona-Conditioned Multi-Turn Conversations for AudioLLMs [13.58291341556655]
我々は,複数のMENA諸国にまたがる124人の話者から約18Kの高品質発話からなる参照音声バンクMENASpeechBankを紹介した。
i)世界価値にインスパイアされた属性に富んだペルソナプロファイルを構築し、(ii)約5Kの会話シナリオの分類を定義し、(iii)意味的類似性を通じてペルソナとシナリオをマッチングし、(iv)約417Kのロールプレイ会話を生成する。
論文 参考訳(メタデータ) (2026-02-03T10:22:27Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。
このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。
我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文 参考訳(メタデータ) (2025-05-31T02:07:37Z) - Voice Cloning for Dysarthric Speech Synthesis: Addressing Data Scarcity in Speech-Language Pathology [0.0]
本研究は, 変形性関節症患者の独特のパターンを再現した合成音声を生成するために, 音声クローニングについて検討する。
TORGOデータセットを用いて,言語病理学におけるデータ不足とプライバシー問題に対処する。
我々は,義歯の音声とコントロールスピーカーの音声を商業的プラットフォームでクローンし,性別に適合した合成音声を保証した。
論文 参考訳(メタデータ) (2025-03-03T07:44:49Z) - Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis [21.245160899212774]
本稿では,音声サンプルの真正性,合成性,部分的偽造性を広範囲に網羅し,音声・フォレンジスデータセットを提案する。
我々はまた、認証検出、複数の偽セグメントのローカライゼーション、アルゴリズム認識を同時に行うことを目的とした、TEST(TEmporal Speech LocalizaTion Network)を提案する。
平均mAPは83.55%,EERは5.25%である。
論文 参考訳(メタデータ) (2024-12-12T07:48:17Z) - A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。
このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文 参考訳(メタデータ) (2024-09-02T05:09:46Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。