論文の概要: Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective
- arxiv url: http://arxiv.org/abs/2004.13780v2
- Date: Thu, 22 Apr 2021 15:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:35:17.131513
- Title: Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective
- Title(参考訳): クロスモーダル話者の検証と認識:多言語的視点
- Authors: Muhammad Saad Saeed, Shah Nawaz, Pietro Morerio, Arif Mahmood, Ignazio
Gallo, Muhammad Haroon Yousaf, and Alessio Del Bue
- Abstract要約: 本研究の目的は,「対面音声アソシエーション言語は独立したのか?」と「話者は話し言葉を認識しているのか?」という,密接に関連する2つの問いに答えることである。
これに答えるために、オンラインにアップロードされたさまざまなビデオから3ドル(約3,300円)の言語アノテーションを抽出した154ドル(約1,300円)の音声クリップを含むマルチ言語音声画像データセットを収集した。
- 参考スコア(独自算出の注目度): 29.314358875442778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a surge in finding association between faces and
voices within a cross-modal biometric application along with speaker
recognition. Inspired from this, we introduce a challenging task in
establishing association between faces and voices across multiple languages
spoken by the same set of persons. The aim of this paper is to answer two
closely related questions: "Is face-voice association language independent?"
and "Can a speaker be recognised irrespective of the spoken language?". These
two questions are very important to understand effectiveness and to boost
development of multilingual biometric systems. To answer them, we collected a
Multilingual Audio-Visual dataset, containing human speech clips of $154$
identities with $3$ language annotations extracted from various videos uploaded
online. Extensive experiments on the three splits of the proposed dataset have
been performed to investigate and answer these novel research questions that
clearly point out the relevance of the multilingual problem.
- Abstract(参考訳): 近年では、話者認識とクロスモーダルバイオメトリックアプリケーションにおいて、顔と声の関連が急増している。
これから着想を得て,同一人物によって話される複数の言語にまたがる顔と声の関連を確立するという課題を導入する。
本研究の目的は,「対人関係言語は独立か?」,「話者は話し言葉によらず認識できるか」という,密接に関連する2つの質問に答えることである。
これらの2つの質問は、有効性を理解し、多言語バイオメトリックシステムの開発を促進するために非常に重要である。
これに答えるために、私たちは、オンラインでアップロードされたさまざまなビデオから抽出された3ドルの言語アノテーションを含む154ドルの人間の音声クリップを含む多言語音声ビジュアルデータセットを収集しました。
提案されたデータセットの3つの分割に関する広範囲な実験が行われ、これらの新しい研究課題の調査と答えが、多言語問題との関連性を明確に示している。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan [29.23176868272216]
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2024-04-14T19:51:32Z) - LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文 参考訳(メタデータ) (2023-11-21T09:12:21Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。