論文の概要: Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative
- arxiv url: http://arxiv.org/abs/2508.09294v1
- Date: Tue, 12 Aug 2025 19:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.670198
- Title: Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative
- Title(参考訳): フェイクマンバ:双方向マンバを用いたリアルタイム音声深度検出
- Authors: Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen,
- Abstract要約: 合成音声の検出において,双方向マンバが自己注意の代替となるかどうかを検討する。
私たちのソリューションであるFake-Mambaは、XLSRフロントエンドと双方向のMambaを統合して、ローカルとグローバルの両方のアーティファクトをキャプチャします。
Fake-Mambaは、それぞれ0.97%、1.74%、および5.85%のEERを達成した。
- 参考スコア(独自算出の注目度): 6.2413452828062335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in speech synthesis intensify security threats, motivating real-time deepfake detection research. We investigate whether bidirectional Mamba can serve as a competitive alternative to Self-Attention in detecting synthetic speech. Our solution, Fake-Mamba, integrates an XLSR front-end with bidirectional Mamba to capture both local and global artifacts. Our core innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and PN-BiMamba. Leveraging XLSR's rich linguistic representations, PN-BiMamba can effectively capture the subtle cues of synthetic speech. Evaluated on ASVspoof 21 LA, 21 DF, and In-The-Wild benchmarks, Fake-Mamba achieves 0.97%, 1.74%, and 5.85% EER, respectively, representing substantial relative gains over SOTA models XLSR-Conformer and XLSR-Mamba. The framework maintains real-time inference across utterance lengths, demonstrating strong generalization and practical viability. The code is available at https://github.com/xuanxixi/Fake-Mamba.
- Abstract(参考訳): 音声合成の進歩は、セキュリティの脅威を強化し、リアルタイムのディープフェイク検出研究を動機付けている。
合成音声の検出において,双方向マンバが自己注意の代替となるかどうかを検討する。
私たちのソリューションであるFake-Mambaは、XLSRフロントエンドと双方向のMambaを統合して、ローカルとグローバルの両方のアーティファクトをキャプチャします。
私たちの中心となるイノベーションは、TransBiMamba、ConBiMamba、PN-BiMambaの3つの効率的なエンコーダを導入しています。
XLSRの豊かな言語表現を活用することで、PN-BiMambaは合成音声の微妙な手がかりを効果的に捉えることができる。
ASVspoof 21 LA, 21 DF, In-The-Wildベンチマークで評価されたFake-Mambaは、それぞれ0.97%、1.74%、および5.85%のEERを達成し、SOTAモデルであるXLSR-ConformerとXLSR-Mambaに対する実質的な相対的な利得を示している。
このフレームワークは、発話の長さにわたってリアルタイムな推論を維持し、強力な一般化と実用性を示す。
コードはhttps://github.com/xuanxixi/Fake-Mamba.comで入手できる。
関連論文リスト
- From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - MambaGlue: Fast and Robust Local Feature Matching With Mamba [9.397265252815115]
そこで我々は,MambaGlueと呼ばれる,新しいMambaベースの局所特徴マッチング手法を提案する。
Mambaは最先端のアーキテクチャであり、トレーニングと推論の両方において、優れたスピードで急速に認識されるようになった。
私たちのMambaGlueは、実世界のアプリケーションにおける堅牢性と効率のバランスを達成します。
論文 参考訳(メタデータ) (2025-02-01T15:43:03Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - CDMamba: Incorporating Local Clues into Mamba for Remote Sensing Image Binary Change Detection [30.387208446303944]
我々はCDMambaと呼ばれるモデルを提案し、これはバイナリCDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。
具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化に活用するために,Scaled ResidualMambaブロックを提案する。
論文 参考訳(メタデータ) (2024-06-06T16:04:30Z) - An Investigation of Incorporating Mamba for Speech Enhancement [45.610243349192096]
我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。
SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。
論文 参考訳(メタデータ) (2024-05-10T16:18:49Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。