論文の概要: NISP: A Multi-lingual Multi-accent Dataset for Speaker Profiling
- arxiv url: http://arxiv.org/abs/2007.06021v1
- Date: Sun, 12 Jul 2020 15:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 06:14:56.759122
- Title: NISP: A Multi-lingual Multi-accent Dataset for Speaker Profiling
- Title(参考訳): NISP:話者プロファイリングのための多言語マルチアクセントデータセット
- Authors: Shareef Babu Kalluri, Deepu Vijayasenan, Sriram Ganapathy, Ragesh
Rajan M, Prashant Krishnan
- Abstract要約: そこで我々は,5つの異なる言語からの音声データと英語を用いた新しいデータセットを開発した。
また、言語情報、地域情報、話者の身体的特徴などの話者プロファイルアプリケーションのためのメタデータ情報も収集する。
我々はこのデータセットをNITK-IISc Multilingual Multi-accent Speaker Profiling (NISP) と呼ぶ。
- 参考スコア(独自算出の注目度): 36.04737781943248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many commercial and forensic applications of speech demand the extraction of
information about the speaker characteristics, which falls into the broad
category of speaker profiling. The speaker characteristics needed for profiling
include physical traits of the speaker like height, age, and gender of the
speaker along with the native language of the speaker. Many of the datasets
available have only partial information for speaker profiling. In this paper,
we attempt to overcome this limitation by developing a new dataset which has
speech data from five different Indian languages along with English. The
metadata information for speaker profiling applications like linguistic
information, regional information, and physical characteristics of a speaker
are also collected. We call this dataset as NITK-IISc Multilingual Multi-accent
Speaker Profiling (NISP) dataset. The description of the dataset, potential
applications, and baseline results for speaker profiling on this dataset are
provided in this paper.
- Abstract(参考訳): 音声の商業的および法医学的応用の多くは、話者特性に関する情報の抽出を要求しており、これは話者プロファイリングの幅広いカテゴリに該当する。
プロファイリングに必要な話者特性は、話者の高さ、年齢、性別のような話者の物理的特徴と、話者の母語である。
利用可能なデータセットの多くは、話者プロファイリングのための部分的な情報しか持っていない。
本稿では,5つの異なるインドの言語と英語の音声データを持つ新しいデータセットを開発することにより,この制限を克服しようとする。
また、言語情報、地域情報、話者の物理的特徴などの話者プロファイルアプリケーションのためのメタデータ情報も収集する。
我々はこのデータセットをNITK-IISc Multilingual Multi-accent Speaker Profiling (NISP) と呼ぶ。
本論文では,本データセットを用いた話者プロファイリングのためのデータセット,潜在的な応用,ベースライン結果について述べる。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。