Fugu-MT 論文翻訳(概要): Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from their voices

論文の概要: Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from their voices

arxiv url: http://arxiv.org/abs/2401.09441v1
Date: Wed, 20 Dec 2023 11:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 09:25:48.546300
Title: Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from their voices
Title（参考訳）: Voxceleb-ESP:スペイン人有名人を音声から検出する予備実験
Authors: Beltr\'an Labrador, Manuel Otero-Gonzalez, Alicia Lozano-Diez, Daniel Ramos, Doroteo T. Toledano, Joaquin Gonzalez-Rodriguez
Abstract要約: VoxCeleb-ESPは、多様な話し方、ノイズ、チャンネル歪みを取り入れた現実世界のシナリオをキャプチャする。スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインにおける地理的地域を代表して分布している。 ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。
参考スコア（独自算出の注目度）: 1.7446273568461808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents VoxCeleb-ESP, a collection of pointers and timestamps to YouTube videos facilitating the creation of a novel speaker recognition dataset. VoxCeleb-ESP captures real-world scenarios, incorporating diverse speaking styles, noises, and channel distortions. It includes 160 Spanish celebrities spanning various categories, ensuring a representative distribution across age groups and geographic regions in Spain. We provide two speaker trial lists for speaker identification tasks, each of them with same-video or different-video target trials respectively, accompanied by a cross-lingual evaluation of ResNet pretrained models. Preliminary speaker identification results suggest that the complexity of the detection task in VoxCeleb-ESP is equivalent to that of the original and much larger VoxCeleb in English. VoxCeleb-ESP contributes to the expansion of speaker recognition benchmarks with a comprehensive and diverse dataset for the Spanish language.
Abstract（参考訳）: 本稿では,新しい話者認識データセットの作成を容易にするyoutubeビデオへのポインタとタイムスタンプの収集であるvoxceleb-espを提案する。 voxceleb-espは、さまざまなスピーキングスタイル、ノイズ、チャネル歪みを含む、現実世界のシナリオをキャプチャする。スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインの地理的地域を代表して分布している。 ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。予備的な話者識別結果は、VoxCeleb-ESPにおける検出タスクの複雑さが、英語のVoxCelebと同等であることを示している。 VoxCeleb-ESPは、スペイン語のための包括的で多様なデータセットによる話者認識ベンチマークの拡大に貢献している。

関連論文リスト

Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文参考訳（メタデータ） (2025-03-13T15:11:28Z)
Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings [2.615008111842321]
セマンティック音声エンコーダを用いたトピックセグメンテーションのためのエンドツーエンドスキームを提案する。そこで本研究では,1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。
論文参考訳（メタデータ） (2024-09-10T05:24:36Z)
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2024-07-16T18:03:58Z)
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文参考訳（メタデータ） (2023-11-21T09:12:21Z)
PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (2023-05-29T18:58:38Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文参考訳（メタデータ） (2022-04-19T13:35:50Z)
The futility of STILTs for the classification of lexical borrowings in Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文参考訳（メタデータ） (2021-09-17T15:32:02Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。