論文の概要: XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection
- arxiv url: http://arxiv.org/abs/2510.06706v1
- Date: Wed, 08 Oct 2025 06:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.340202
- Title: XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection
- Title(参考訳): XLSR-Kanformer: 合成音声検出のためのKA-Intergrated Model
- Authors: Phuong Tuan Dat, Tran Huy Dat,
- Abstract要約: 我々は、XLSR-Conformerモデルにおける従来のMulti-Layer Perceptron(MLP)をKolmogorov-Arnold Network(KAN)に置き換える新しいアプローチを提案する。
XLSR-Conformer モデルへの Kan の統合は, LA と DF の等誤差レート (EER) において, 相対的に 60.55% 向上できることを示した。
- 参考スコア(独自算出の注目度): 1.8334165690218873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in speech synthesis technologies have led to increasingly sophisticated spoofing attacks, posing significant challenges for automatic speaker verification systems. While systems based on self-supervised learning (SSL) models, particularly the XLSR-Conformer architecture, have demonstrated remarkable performance in synthetic speech detection, there remains room for architectural improvements. In this paper, we propose a novel approach that replaces the traditional Multi-Layer Perceptron (MLP) in the XLSR-Conformer model with a Kolmogorov-Arnold Network (KAN), a powerful universal approximator based on the Kolmogorov-Arnold representation theorem. Our experimental results on ASVspoof2021 demonstrate that the integration of KAN to XLSR-Conformer model can improve the performance by 60.55% relatively in Equal Error Rate (EER) LA and DF sets, further achieving 0.70% EER on the 21LA set. Besides, the proposed replacement is also robust to various SSL architectures. These findings suggest that incorporating KAN into SSL-based models is a promising direction for advances in synthetic speech detection.
- Abstract(参考訳): 近年の音声合成技術の進歩により、スプーフィング攻撃がますます高度化しており、自動話者検証システムにおいて重要な課題となっている。
自己教師付き学習(SSL)モデルに基づくシステム、特にXLSR-Conformerアーキテクチャは、合成音声検出において顕著な性能を示したが、アーキテクチャ改善の余地は残されている。
本稿では、XLSR-Conformerモデルにおける従来のマルチ層パーセプトロン(MLP)をコルモゴロフ-アルノルドネットワーク(KAN)に置き換える手法を提案する。
ASVspoof2021における実験結果から,KanをXLSR-Conformerモデルに統合することにより,EER(Equal Error Rate)LAとDFセットで相対的に60.55%向上し,さらに21LAセットで0.70%のEERを達成することができた。
さらに、提案された代替は、さまざまなSSLアーキテクチャにも堅牢である。
これらの結果から,KAをSSLモデルに組み込むことが,合成音声検出の進歩に有望な方向であることが示唆された。
関連論文リスト
- Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - Pushing the Performance of Synthetic Speech Detection with Kolmogorov-Arnold Networks and Self-Supervised Learning Models [1.7205106391379026]
我々は、XLSR-Conformerモデルにおける従来のマルチ層パーセプトロンをコルモゴロフ・アルノルドネットワーク(KAN)で置き換える新しいアプローチを提案する。
以上の結果から,KAをSSLベースモデルに統合することで,LAとDFの相対的な性能を60.55%向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-06-17T03:30:58Z) - Revisiting SSL for sound event detection: complementary fusion and adaptive post-processing [13.761237056969]
自己教師付き学習(SSL)モデルは、音事象検出(SED)のための強力な表現を提供する
本研究では,SEDの最適モデル選択と統合を導くために,最先端のSSLモデルを体系的に評価する。
本稿では,各SSL埋め込み統合,デュアルモーダル融合,フルアグリゲーションという3つの融合戦略を通じて,異種SSL表現を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T07:54:31Z) - Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer [11.362681035467121]
我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。
提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
論文 参考訳(メタデータ) (2025-01-03T18:19:12Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling [13.515248068374625]
本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。
SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
論文 参考訳(メタデータ) (2023-07-13T20:50:19Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Utterance-level Sequential Modeling For Deep Gaussian Process Based
Speech Synthesis Using Simple Recurrent Unit [41.85906379846473]
本稿では,DGPが繰り返しアーキテクチャモデルを用いて発話レベルモデリングに適用可能であることを示す。
提案したモデルに対して単純な再帰ユニット(SRU)を採用し,再帰的アーキテクチャを実現する。
提案したSRU-DGPに基づく音声合成は、フィードフォワードDGPだけでなく、SRUと長短期記憶(LSTM)ベースのニューラルネットワークを自動調整する。
論文 参考訳(メタデータ) (2020-04-22T19:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。