論文の概要: Playing with Voices: Tabletop Role-Playing Game Recordings as a Diarization Challenge
- arxiv url: http://arxiv.org/abs/2502.12714v1
- Date: Tue, 18 Feb 2025 10:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:35.593546
- Title: Playing with Voices: Tabletop Role-Playing Game Recordings as a Diarization Challenge
- Title(参考訳): 音声でプレイする: ダイアリゼーションチャレンジとしてのテーブルトップロールプレイングゲーム録画
- Authors: Lian Remme, Kevin Tang,
- Abstract要約: 本稿では,テーブルトップロールプレイングゲーム (TTRPG) のオーディオがダイアリゼーションシステムの課題であることを示す。
我々は、小さなTTRPGオーディオデータセットを作成し、AMIとICSIコーパスと比較する。
その結果,TTRPGsの特性は両ダイアリザの混乱率が高いことがわかった。
- 参考スコア(独自算出の注目度): 0.9668407688201361
- License:
- Abstract: This paper provides a proof of concept that audio of tabletop role-playing games (TTRPG) could serve as a challenge for diarization systems. TTRPGs are carried out mostly by conversation. Participants often alter their voices to indicate that they are talking as a fictional character. Audio processing systems are susceptible to voice conversion with or without technological assistance. TTRPG present a conversational phenomenon in which voice conversion is an inherent characteristic for an immersive gaming experience. This could make it more challenging for diarizers to pick the real speaker and determine that impersonating is just that. We present the creation of a small TTRPG audio dataset and compare it against the AMI and the ICSI corpus. The performance of two diarizers, pyannote.audio and wespeaker, were evaluated. We observed that TTRPGs' properties result in a higher confusion rate for both diarizers. Additionally, wespeaker strongly underestimates the number of speakers in the TTRPG audio files. We propose TTRPG audio as a promising challenge for diarization systems.
- Abstract(参考訳): 本稿では,テーブルトップロールプレイングゲーム (TTRPG) のオーディオがダイアリゼーションシステムの課題であることを示す。
TTRPGは主に会話によって行われる。
参加者は、しばしば自分の声を変えて、彼らが架空のキャラクターとして話していることを示す。
音声処理システムは、技術援助の有無にかかわらず音声変換に感受性がある。
TTRPGは、音声変換が没入型ゲーム体験の固有の特徴である会話現象を示す。
これにより、ダイアリザーが実際のスピーカーを選択して、偽装がまさにそれであるかどうかを判断することがより困難になる可能性がある。
我々は、小さなTTRPGオーディオデータセットを作成し、AMIとICSIコーパスと比較する。
pyannote.audioとwespeakerの2つのダイアリザの性能を評価した。
その結果,TTRPGsの特性は両ダイアリザの混乱率が高いことがわかった。
さらに、WespeakerはTTRPGオーディオファイルの話者数を強く過小評価している。
ダイアリゼーションシステムに期待できる課題としてTTRPGオーディオを提案する。
関連論文リスト
- Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities [29.692178856614014]
ワンショット音声変換(VC)は、音源話者からの発声の音色を変化させ、ターゲット話者の音色と一致させることを目的としている。
ワンショットVCの進歩にもかかわらず、その効果は、インターネットからしばしば引き起こされる参照スピーチが背景ノイズのような様々な障害を含む現実のシナリオにおいて減少する。
論文 参考訳(メタデータ) (2024-11-29T15:18:01Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Who is Authentic Speaker [4.822108779108675]
音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
論文 参考訳(メタデータ) (2024-04-30T23:41:00Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System
for Both Human Beings and Machines [15.087294549955304]
本研究の目的は,音声の話者内容のアンタングル化のための中間表現を得ることである。
本システムでは,音声のクローン性能を維持するために,話者情報制御を付加する。
その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減することがわかった。
論文 参考訳(メタデータ) (2021-11-06T06:22:45Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。