論文の概要: Text-Independent Speaker Identification Using Audio Looping With Margin Based Loss Functions
- arxiv url: http://arxiv.org/abs/2509.22838v1
- Date: Fri, 26 Sep 2025 18:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.902522
- Title: Text-Independent Speaker Identification Using Audio Looping With Margin Based Loss Functions
- Title(参考訳): Marginに基づく損失関数を用いた音声ループを用いたテキスト非依存話者識別
- Authors: Elliot Q C Garcia, Nicéias Silva Vilela, Kátia Pires Nascimento do Sacramento, Tiago A. E. Ferreira,
- Abstract要約: 畳み込みニューラルネットワークアーキテクチャを用いたテキスト独立話者識別におけるCosFace LossとArcFace Lossの有効性を検討した。
モデル精度とロバスト性への影響を解析するために,両損失関数を実装する。
実験の結果,従来のSoftmax損失法と比較して同定精度が優れていた。
- 参考スコア(独自算出の注目度): 1.4524462132789562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speaker identification has become a crucial component in various applications, including security systems, virtual assistants, and personalized user experiences. In this paper, we investigate the effectiveness of CosFace Loss and ArcFace Loss for text-independent speaker identification using a Convolutional Neural Network architecture based on the VGG16 model, modified to accommodate mel spectrogram inputs of variable sizes generated from the Voxceleb1 dataset. Our approach involves implementing both loss functions to analyze their effects on model accuracy and robustness, where the Softmax loss function was employed as a comparative baseline. Additionally, we examine how the sizes of mel spectrograms and their varying time lengths influence model performance. The experimental results demonstrate superior identification accuracy compared to traditional Softmax loss methods. Furthermore, we discuss the implications of these findings for future research.
- Abstract(参考訳): 話者識別は,セキュリティシステムや仮想アシスタント,パーソナライズされたユーザエクスペリエンスなど,さまざまなアプリケーションにおいて重要なコンポーネントとなっている。
本稿では、VGG16モデルに基づく畳み込みニューラルネットワークアーキテクチャを用いて、Voxceleb1データセットから生成された可変サイズのメルスペクトル入力に対応するために、テキストに依存しない話者識別のためのCosFace LossとArcFace Lossの有効性について検討する。
本手法では, モデル精度とロバスト性に及ぼす損失関数の影響を解析するために両方の損失関数を実装し, ソフトマックス損失関数を比較ベースラインとして用いた。
さらに,メルスペクトルのサイズと時間長の変化がモデル性能に与える影響について検討した。
実験の結果,従来のSoftmax損失法と比較して同定精度が優れていた。
さらに,これらの知見が今後の研究にもたらす意味についても論じる。
関連論文リスト
- RBA-FE: A Robust Brain-Inspired Audio Feature Extractor for Depression Diagnosis [6.6826445546254964]
本稿では,脳にインスパイアされた音声特徴抽出器(RBA-FE)を改良した階層型ネットワークアーキテクチャを用いて,抑うつ診断のためのモデルを提案する。
RBA-FEは、ノイズを調整するために、生音声から抽出した6つの音響特性を活用し、空間特性と時間依存性の両方をキャプチャする。
ノイズ問題に対処するため,本モデルは適応速度スムーズなインテリジェンス・アンド・ファイア (ARSLIF) と呼ばれる改良されたスパイクニューロンモデルを組み込んだ。
論文 参考訳(メタデータ) (2025-06-08T13:00:45Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance [15.919990281329085]
本研究では,有意な音声特徴を識別するための変分モード分解アルゴリズムであるVGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上のVGG16ネットワークをトレーニングし、VGG-optiVMDと信頼性を評価する。
その結果,信号サンプル率の微調整と分解パラメータとの相乗関係を分類精度で確認した。
論文 参考訳(メタデータ) (2023-12-18T05:24:03Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。