論文の概要: NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification
- arxiv url: http://arxiv.org/abs/2203.15253v1
- Date: Tue, 29 Mar 2022 05:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 05:19:09.920045
- Title: NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification
- Title(参考訳): NeuraGen - ジェンダー分類のための低リソースニューラルネットワークによるアプローチ
- Authors: Shankhanil Ghosh (1), Chhanda Saha (1) and Naagamani Molakathaala (1)
((1) School of Computer and Information Sciences, University of Hyderabad,
Hyderabad, India)
- Abstract要約: ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human voice is the source of several important information. This is in the
form of features. These Features help in interpreting various features
associated with the speaker and speech. The speaker dependent work
researchersare targeted towards speaker identification, Speaker verification,
speaker biometric, forensics using feature, and cross-modal matching via speech
and face images. In such context research, it is a very difficult task to come
across clean, and well annotated publicly available speech corpus as data set.
Acquiring volunteers to generate such dataset is also very expensive, not to
mention the enormous amount of effort and time researchers spend to gather such
data. The present paper work, a Neural Network proposal as NeuraGen focused
which is a low-resource ANN architecture. The proposed tool used to classify
gender of the speaker from the speech recordings. We have used speech
recordings collected from the ELSDSR and limited TIMIT datasets, from which we
extracted 8 speech features, which were pre-processed and then fed into
NeuraGen to identify the gender. NeuraGen has successfully achieved accuracy of
90.7407% and F1 score of 91.227% in train and 20-fold cross validation dataset.
- Abstract(参考訳): 人間の声はいくつかの重要な情報の源です。
これは特徴の形式です。
これらの特徴は、話者と音声に関連する様々な特徴を解釈するのに役立つ。
話者依存型作業研究者は、話者識別、話者認証、話者生体計測、特徴を用いた法医学、および音声および顔画像によるクロスモーダルマッチングを対象とする。
このような文脈研究において、クリーンで、注釈付きで公開されている音声コーパスをデータセットとして扱うことは非常に困難である。
このようなデータセットを生成するためのボランティアの獲得も非常に費用がかかり、研究者がデータ収集に費やす膨大な労力と時間も言うまでもない。
本稿では,低リソースのANNアーキテクチャであるNeuraGenによるニューラルネットワークの提案について述べる。
音声記録から話者の性別を分類するためのツールが提案されている。
我々は,ELSDSRから収集した音声記録と限定TIMITデータセットを用いて,前処理した8つの音声特徴を抽出し,その後NeuraGenに入力して性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
関連論文リスト
- Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network [0.0]
本稿では,最小限のデータセット上で話者識別を行うために設計された,軽量な1D-Convolutional Neural Network (1D-CNN)を提案する。
提案手法は97.87%の精度を達成し,バックグラウンドノイズや限られたトレーニングサンプルの処理にデータ拡張技術を活用する。
論文 参考訳(メタデータ) (2024-11-22T17:18:08Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Overlapped speech and gender detection with WavLM pre-trained features [6.054285771277486]
本稿では,フランス音声メディアにおける女性と男性間の相互作用を研究するために,重なり合う発話と性別の検出に焦点を当てる。
本稿では,膨大な音声データに基づいて事前学習を行うことの利点を生かしたWavLMモデルを提案する。
ニューラルGDは、フランスの放送ニュースALLIESデータの性別バランスの取れたサブセットに基づいてWavLM入力で訓練され、97.9%の精度が得られる。
論文 参考訳(メタデータ) (2022-09-09T08:00:47Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition [5.1229352884025845]
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
論文 参考訳(メタデータ) (2021-11-07T22:17:52Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。