論文の概要: Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective
- arxiv url: http://arxiv.org/abs/2004.13780v2
- Date: Thu, 22 Apr 2021 15:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:35:17.131513
- Title: Cross-modal Speaker Verification and Recognition: A Multilingual
Perspective
- Title(参考訳): クロスモーダル話者の検証と認識:多言語的視点
- Authors: Muhammad Saad Saeed, Shah Nawaz, Pietro Morerio, Arif Mahmood, Ignazio
Gallo, Muhammad Haroon Yousaf, and Alessio Del Bue
- Abstract要約: 本研究の目的は,「対面音声アソシエーション言語は独立したのか?」と「話者は話し言葉を認識しているのか?」という,密接に関連する2つの問いに答えることである。
これに答えるために、オンラインにアップロードされたさまざまなビデオから3ドル(約3,300円)の言語アノテーションを抽出した154ドル(約1,300円)の音声クリップを含むマルチ言語音声画像データセットを収集した。
- 参考スコア(独自算出の注目度): 29.314358875442778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a surge in finding association between faces and
voices within a cross-modal biometric application along with speaker
recognition. Inspired from this, we introduce a challenging task in
establishing association between faces and voices across multiple languages
spoken by the same set of persons. The aim of this paper is to answer two
closely related questions: "Is face-voice association language independent?"
and "Can a speaker be recognised irrespective of the spoken language?". These
two questions are very important to understand effectiveness and to boost
development of multilingual biometric systems. To answer them, we collected a
Multilingual Audio-Visual dataset, containing human speech clips of $154$
identities with $3$ language annotations extracted from various videos uploaded
online. Extensive experiments on the three splits of the proposed dataset have
been performed to investigate and answer these novel research questions that
clearly point out the relevance of the multilingual problem.
- Abstract(参考訳): 近年では、話者認識とクロスモーダルバイオメトリックアプリケーションにおいて、顔と声の関連が急増している。
これから着想を得て,同一人物によって話される複数の言語にまたがる顔と声の関連を確立するという課題を導入する。
本研究の目的は,「対人関係言語は独立か?」,「話者は話し言葉によらず認識できるか」という,密接に関連する2つの質問に答えることである。
これらの2つの質問は、有効性を理解し、多言語バイオメトリックシステムの開発を促進するために非常に重要である。
これに答えるために、私たちは、オンラインでアップロードされたさまざまなビデオから抽出された3ドルの言語アノテーションを含む154ドルの人間の音声クリップを含む多言語音声ビジュアルデータセットを収集しました。
提案されたデータセットの3つの分割に関する広範囲な実験が行われ、これらの新しい研究課題の調査と答えが、多言語問題との関連性を明確に示している。
関連論文リスト
- Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。
これにより、言語間音声合成の品質が大幅に向上する。
さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-12-28T06:32:49Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。