論文の概要: Nes2Net: A Lightweight Nested Architecture for Foundation Model Driven Speech Anti-spoofing
- arxiv url: http://arxiv.org/abs/2504.05657v1
- Date: Tue, 08 Apr 2025 04:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:33.172519
- Title: Nes2Net: A Lightweight Nested Architecture for Foundation Model Driven Speech Anti-spoofing
- Title(参考訳): Nes2Net: 基礎モデル駆動型音声アンチスプーフィングのための軽量ネステッドアーキテクチャ
- Authors: Tianchi Liu, Duc-Tuan Truong, Rohan Kumar Das, Kong Aik Lee, Haizhou Li,
- Abstract要約: Nested Res2Net (Nes2Net) は、DRレイヤなしで高次元機能を直接処理できる軽量バックエンドアーキテクチャである。
本稿では,22%の性能向上と87%のバックエンド計算コスト削減を報告した。
- 参考スコア(独自算出の注目度): 56.53218228501566
- License:
- Abstract: Speech foundation models have significantly advanced various speech-related tasks by providing exceptional representation capabilities. However, their high-dimensional output features often create a mismatch with downstream task models, which typically require lower-dimensional inputs. A common solution is to apply a dimensionality reduction (DR) layer, but this approach increases parameter overhead, computational costs, and risks losing valuable information. To address these issues, we propose Nested Res2Net (Nes2Net), a lightweight back-end architecture designed to directly process high-dimensional features without DR layers. The nested structure enhances multi-scale feature extraction, improves feature interaction, and preserves high-dimensional information. We first validate Nes2Net on CtrSVDD, a singing voice deepfake detection dataset, and report a 22% performance improvement and an 87% back-end computational cost reduction over the state-of-the-art baseline. Additionally, extensive testing across four diverse datasets: ASVspoof 2021, ASVspoof 5, PartialSpoof, and In-the-Wild, covering fully spoofed speech, adversarial attacks, partial spoofing, and real-world scenarios, consistently highlights Nes2Net's superior robustness and generalization capabilities. The code package and pre-trained models are available at https://github.com/Liu-Tianchi/Nes2Net.
- Abstract(参考訳): 音声基礎モデルは、例外的な表現能力を提供することで、様々な音声関連タスクを著しく進歩させてきた。
しかし、それらの高次元の出力特徴はしばしば下流のタスクモデルとのミスマッチを生じさせ、通常は低次元の入力を必要とする。
一般的な解決策は次元還元層(DR)を適用することであるが、このアプローチはパラメータのオーバーヘッド、計算コスト、貴重な情報を失うリスクを増加させる。
このような問題に対処するため,DR層を使わずに高次元機能を直接処理できる軽量バックエンドアーキテクチャであるNested Res2Net(Nes2Net)を提案する。
ネスト構造は、マルチスケールの特徴抽出を強化し、特徴相互作用を改善し、高次元情報を保存する。
我々はまず,歌声深度検出データセットであるCtrSVDD上でNes2Netを検証し,22%の性能向上と87%のバックエンド計算コスト削減を報告した。
さらに、ASVspoof 2021、ASVspoof 5、PartialSpoof、In-the-Wildの4つの多様なデータセットにわたる広範なテストは、完全にスプーフされたスピーチ、敵攻撃、部分的なスプーフ、および実世界のシナリオをカバーし、Nes2Netの優れた堅牢性と一般化能力を一貫して強調している。
コードパッケージと事前トレーニングされたモデルはhttps://github.com/Liu-Tianchi/Nes2Net.comで入手できる。
関連論文リスト
- FeatUp: A Model-Agnostic Framework for Features at Any Resolution [24.4201195336725]
FeatUpは、失われた空間情報を深い特徴で復元するためのタスクおよびモデルに依存しないフレームワークである。
FeatUpの2つのバリエーションを紹介します。1つは、1つのフォワードパスで高分解能信号で特徴を導くもので、もう1つは暗黙のモデルを1つのイメージに適合させて、任意の解像度で特徴を再構成するものです。
FeatUpは、クラスアクティベーションマップ生成、セグメンテーションとデプス予測のためのトランスファーラーニング、セグメンテーションのためのエンドツーエンドトレーニングにおいて、他の機能アップサンプリングや画像超解像アプローチよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T17:57:06Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Deep Axial Hypercomplex Networks [1.370633147306388]
近年の研究では,超複雑ネットワークによる表現能力の向上が図られている。
本稿では、四元数2D畳み込み加群を2つの連続ベクトルマップ1D畳み込み加群に分解することで、このコストを削減する。
両ネットワークを組み込んで提案した超複素ネットワークは, 深部軸超複素ネットワークを構築するために構築可能な新しいアーキテクチャである。
論文 参考訳(メタデータ) (2023-01-11T18:31:00Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - RipsNet: a general architecture for fast and robust estimation of the
persistent homology of point clouds [4.236277880658203]
テストデータのトポロジ的記述子を一般化能力で効率的に推定できることを示す。
我々は、RipsNetが1-ワッサーシュタイン距離の点で摂動入力に頑健であることを証明する。
合成データと実世界のデータの両方にRipsNetが使われていることを示す。
論文 参考訳(メタデータ) (2022-02-03T17:40:04Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。