論文の概要: Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from
their voices
- arxiv url: http://arxiv.org/abs/2401.09441v1
- Date: Wed, 20 Dec 2023 11:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:25:48.546300
- Title: Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from
their voices
- Title(参考訳): Voxceleb-ESP:スペイン人有名人を音声から検出する予備実験
- Authors: Beltr\'an Labrador, Manuel Otero-Gonzalez, Alicia Lozano-Diez, Daniel
Ramos, Doroteo T. Toledano, Joaquin Gonzalez-Rodriguez
- Abstract要約: VoxCeleb-ESPは、多様な話し方、ノイズ、チャンネル歪みを取り入れた現実世界のシナリオをキャプチャする。
スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインにおける地理的地域を代表して分布している。
ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。
- 参考スコア(独自算出の注目度): 1.7446273568461808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VoxCeleb-ESP, a collection of pointers and timestamps to
YouTube videos facilitating the creation of a novel speaker recognition
dataset. VoxCeleb-ESP captures real-world scenarios, incorporating diverse
speaking styles, noises, and channel distortions. It includes 160 Spanish
celebrities spanning various categories, ensuring a representative distribution
across age groups and geographic regions in Spain. We provide two speaker trial
lists for speaker identification tasks, each of them with same-video or
different-video target trials respectively, accompanied by a cross-lingual
evaluation of ResNet pretrained models. Preliminary speaker identification
results suggest that the complexity of the detection task in VoxCeleb-ESP is
equivalent to that of the original and much larger VoxCeleb in English.
VoxCeleb-ESP contributes to the expansion of speaker recognition benchmarks
with a comprehensive and diverse dataset for the Spanish language.
- Abstract(参考訳): 本稿では,新しい話者認識データセットの作成を容易にするyoutubeビデオへのポインタとタイムスタンプの収集であるvoxceleb-espを提案する。
voxceleb-espは、さまざまなスピーキングスタイル、ノイズ、チャネル歪みを含む、現実世界のシナリオをキャプチャする。
スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインの地理的地域を代表して分布している。
ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。
予備的な話者識別結果は、VoxCeleb-ESPにおける検出タスクの複雑さが、英語のVoxCelebと同等であることを示している。
VoxCeleb-ESPは、スペイン語のための包括的で多様なデータセットによる話者認識ベンチマークの拡大に貢献している。
関連論文リスト
- LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文 参考訳(メタデータ) (2023-11-21T09:12:21Z) - A User-Centered Evaluation of Spanish Text Simplification [6.046875672600245]
生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
論文 参考訳(メタデータ) (2023-08-15T03:49:59Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - The futility of STILTs for the classification of lexical borrowings in
Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文 参考訳(メタデータ) (2021-09-17T15:32:02Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective [29.314358875442778]
本研究の目的は,「対面音声アソシエーション言語は独立したのか?」と「話者は話し言葉を認識しているのか?」という,密接に関連する2つの問いに答えることである。
これに答えるために、オンラインにアップロードされたさまざまなビデオから3ドル(約3,300円)の言語アノテーションを抽出した154ドル(約1,300円)の音声クリップを含むマルチ言語音声画像データセットを収集した。
論文 参考訳(メタデータ) (2020-04-28T19:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。