論文の概要: Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network
- arxiv url: http://arxiv.org/abs/2411.15082v1
- Date: Fri, 22 Nov 2024 17:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:35.614217
- Title: Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network
- Title(参考訳): 1次元畳み込みニューラルネットワークを用いた最小データセットと制約資源を用いた話者識別に向けて
- Authors: Irfan Nafiz Shahan, Pulok Ahmed Auvi,
- Abstract要約: 本稿では,最小限のデータセット上で話者識別を行うために設計された,軽量な1D-Convolutional Neural Network (1D-CNN)を提案する。
提案手法は97.87%の精度を達成し,バックグラウンドノイズや限られたトレーニングサンプルの処理にデータ拡張技術を活用する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Voice recognition and speaker identification are vital for applications in security and personal assistants. This paper presents a lightweight 1D-Convolutional Neural Network (1D-CNN) designed to perform speaker identification on minimal datasets. Our approach achieves a validation accuracy of 97.87%, leveraging data augmentation techniques to handle background noise and limited training samples. Future improvements include testing on larger datasets and integrating transfer learning methods to enhance generalizability. We provide all code, the custom dataset, and the trained models to facilitate reproducibility. These resources are available on our GitHub repository: https://github.com/IrfanNafiz/RecMe.
- Abstract(参考訳): 音声認識と話者識別は、セキュリティやパーソナルアシスタントの応用に不可欠である。
本稿では,最小限のデータセット上で話者識別を行うために設計された,軽量な1D-Convolutional Neural Network (1D-CNN)を提案する。
提案手法は97.87%の精度を達成し,バックグラウンドノイズや限られたトレーニングサンプルの処理にデータ拡張技術を活用する。
今後の改善には、より大きなデータセットのテストや、一般化性を高めるために転送学習メソッドの統合が含まれる。
再現性を促進するために、すべてのコード、カスタムデータセット、トレーニングされたモデルを提供します。
これらのリソースはGitHubリポジトリ(https://github.com/IrfanNafiz/RecMe)で利用可能です。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Deep Active Audio Feature Learning in Resource-Constrained Environments [3.789219860006095]
ラベル付きデータの不足により、バイオ音響アプリケーションにおけるDeep Neural Network(DNN)モデルのトレーニングが困難になる。
アクティブラーニング(AL)は、ラベル付けの労力をほとんど必要とせず、この学習を支援するアプローチである。
本稿では,ALループに特徴抽出を組み込んだALフレームワークについて述べる。
論文 参考訳(メタデータ) (2023-08-25T06:45:02Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Federated Representation Learning for Automatic Speech Recognition [20.641076546330986]
Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。
我々は、データのプライバシー制約に配慮した自動音声認識のための表現を学習するために、自己教師付き学習(SSL)とFLをまとめる。
FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。
論文 参考訳(メタデータ) (2023-08-03T20:08:23Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。