論文の概要: Pushing the Performance of Synthetic Speech Detection with Kolmogorov-Arnold Networks and Self-Supervised Learning Models
- arxiv url: http://arxiv.org/abs/2506.14153v1
- Date: Tue, 17 Jun 2025 03:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.313545
- Title: Pushing the Performance of Synthetic Speech Detection with Kolmogorov-Arnold Networks and Self-Supervised Learning Models
- Title(参考訳): Kolmogorov-Arnold ネットワークと自己教師付き学習モデルを用いた合成音声検出の性能向上
- Authors: Tuan Dat Phuong, Long-Vu Hoang, Huy Dat Tran,
- Abstract要約: 我々は、XLSR-Conformerモデルにおける従来のマルチ層パーセプトロンをコルモゴロフ・アルノルドネットワーク(KAN)で置き換える新しいアプローチを提案する。
以上の結果から,KAをSSLベースモデルに統合することで,LAとDFの相対的な性能を60.55%向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in speech synthesis technologies have led to increasingly advanced spoofing attacks, posing significant challenges for automatic speaker verification systems. While systems based on self-supervised learning (SSL) models, particularly the XLSR-Conformer model, have demonstrated remarkable performance in synthetic speech detection, there remains room for architectural improvements. In this paper, we propose a novel approach that replaces the traditional Multi-Layer Perceptron in the XLSR-Conformer model with a Kolmogorov-Arnold Network (KAN), a novel architecture based on the Kolmogorov-Arnold representation theorem. Our results on ASVspoof2021 demonstrate that integrating KAN into the SSL-based models can improve the performance by 60.55% relatively on LA and DF sets, further achieving 0.70% EER on the 21LA set. These findings suggest that incorporating KAN into SSL-based models is a promising direction for advances in synthetic speech detection.
- Abstract(参考訳): 近年の音声合成技術の進歩により、スプーフィング攻撃が増加し、自動話者検証システムに重大な課題が生じた。
自己教師付き学習(SSL)モデル、特にXLSR-Conformerモデルに基づくシステムは、合成音声検出において顕著な性能を示したが、アーキテクチャ改善の余地は残されている。
本稿では,XLSR-Conformerモデルにおける従来のマルチ層パーセプトロンを,KAN(Kolmogorov-Arnold Network)に置き換える新しい手法を提案する。
ASVspoof2021 による結果から,SSL ベースのモデルに Kan を組み込むことで,LA と DF セットで相対的に 60.55% 向上し,21LA セットで 0.70% EER を達成することができた。
これらの結果から,KAをSSLモデルに組み込むことが,合成音声検出の進歩に有望な方向であることが示唆された。
関連論文リスト
- An Exploration of Mamba for Speech Self-Supervised Models [48.01992287080999]
我々はTransformerベースのSSLアーキテクチャに代わるものとして,MambaベースのHuBERTモデルを探求する。
HuBERTモデルは、計算量を大幅に削減した長文ASRの微調整を可能にする。
これらの結果から,マンバをベースとしたSSLは,時系列モデリング,リアルタイム音声モデリング,音声単位抽出において,有望かつ補完的な方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-14T19:00:44Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Pose-Guided Sign Language Video GAN with Dynamic Lambda [0.41998444721319206]
我々は,gansを用いた手話ビデオの新しい手法を提案する。
我々は,ソフトゲートワープガンの人間意味合成を用いて,領域レベルの空間レイアウトを導いたフォトリアリスティックな映像を作成する。
論文 参考訳(メタデータ) (2021-05-06T15:12:09Z) - Utterance-level Sequential Modeling For Deep Gaussian Process Based
Speech Synthesis Using Simple Recurrent Unit [41.85906379846473]
本稿では,DGPが繰り返しアーキテクチャモデルを用いて発話レベルモデリングに適用可能であることを示す。
提案したモデルに対して単純な再帰ユニット(SRU)を採用し,再帰的アーキテクチャを実現する。
提案したSRU-DGPに基づく音声合成は、フィードフォワードDGPだけでなく、SRUと長短期記憶(LSTM)ベースのニューラルネットワークを自動調整する。
論文 参考訳(メタデータ) (2020-04-22T19:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。