論文の概要: BEAT2AASIST model with layer fusion for ESDD 2026 Challenge
- arxiv url: http://arxiv.org/abs/2512.15180v1
- Date: Wed, 17 Dec 2025 08:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.898891
- Title: BEAT2AASIST model with layer fusion for ESDD 2026 Challenge
- Title(参考訳): 層融合型BEAT2AASISTモデルによるESDD 2026チャレンジ
- Authors: Sanghyeok Chung, Eujin Kim, Donggun Kim, Gaeun Heo, Jeongbin You, Nahyun Lee, Sunmook Choi, Soyul Han, Seungsang Oh, Il-Youp Kwak,
- Abstract要約: ESDD 2026 Challengeは環境音深度検出のための最初の大規模ベンチマークである。
近年の音声生成の進歩は、現実的な環境音の操作のリスクを高めている。
本稿では、BEATs-AASISTを拡張したBEAT2AASISTを提案する。
- 参考スコア(独自算出の注目度): 4.983827120166267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in audio generation have increased the risk of realistic environmental sound manipulation, motivating the ESDD 2026 Challenge as the first large-scale benchmark for Environmental Sound Deepfake Detection (ESDD). We propose BEAT2AASIST which extends BEATs-AASIST by splitting BEATs-derived representations along frequency or channel dimension and processing them with dual AASIST branches. To enrich feature representations, we incorporate top-k transformer layer fusion using concatenation, CNN-gated, and SE-gated strategies. In addition, vocoder-based data augmentation is applied to improve robustness against unseen spoofing methods. Experimental results on the official test sets demonstrate that the proposed approach achieves competitive performance across the challenge tracks.
- Abstract(参考訳): 近年,環境音深度検出(ESDD)のための大規模なベンチマークとして,ESDD 2026 Challengeを動機付け,環境音のリアルな操作のリスクが高まっている。
本稿では、BEATs-AASISTを拡張したBEAT2AASISTを提案する。
特徴表現を豊かにするために、結合、CNN-gated、SE-gated戦略を用いたトップkトランスフォーマー層融合を導入する。
さらに、ボコーダに基づくデータ拡張を適用して、目に見えないスプーフィング手法に対する堅牢性を向上させる。
公式なテストセットの実験結果から,提案手法が課題トラック間の競争性能を達成することが示された。
関連論文リスト
- SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering [13.592413960039044]
本研究では,音事象検出に適したデータ拡張手法であるSynSonicを提案する。
そこで,SynSonicはPSDS1とPSDS2を改良し,時間的局所化と音響クラス識別の両面で改善した。
論文 参考訳(メタデータ) (2025-09-23T03:48:26Z) - HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training [17.005718886553865]
我々は,20251Mディープフェイク検出チャレンジのビデオレベルディープフェイク検出トラックのソリューションであるHOLAを提案する。
一般領域における大規模事前学習の成功に触発されて,マルチモーダルビデオレベルのディープフェイク検出において,まず音声視覚による自己教師付き事前学習をスケールする。
具体的に言うと、HOLAは、選択的な音声・視覚相互作用のための反復的認識型クロスモーダル学習モジュール、局所的・言語的視点下でのゲートアグリゲーションによる階層的コンテキストモデリング、スケール的・認識型クロスグラニュラルなセマンティック拡張のためのピラミッドライクな精細化モジュールを備えている。
論文 参考訳(メタデータ) (2025-07-30T15:47:12Z) - Deep Active Speech Cancellation with Mamba-Masking Network [62.73250985838971]
アクティブ音声キャンセラ(ASC)のための新しい深層学習ネットワークを提案する。
提案したMamba-Maskingアーキテクチャは、符号化された参照信号と直接対話するマスキング機構を導入する。
実験の結果、ANCシナリオでは7.2dB、ASCでは6.2dBの改善が達成された。
論文 参考訳(メタデータ) (2025-02-03T09:22:26Z) - RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge [66.33067693672696]
本稿では、深層学習手法を利用したデータ駆動手法を用いて、高周波信号における干渉拒否の重大な問題に対処する。
本論文の主な貢献は、RF信号データセットであるRF Challengeの導入である。
論文 参考訳(メタデータ) (2024-09-13T13:53:41Z) - SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation [21.82296230219289]
選択状態空間モデルであるMambaを利用するSELD-Mambaと呼ばれるSELDのネットワークアーキテクチャを提案する。
本研究では,イベント独立ネットワークV2(EINV2)を基本フレームワークとして採用し,コンバータブロックを双方向のMambaブロックに置き換える。
本研究では,2段階の訓練手法を実装し,第1段階は音事象検出(SED)とDoAの方向推定損失に着目し,第2段階は音源距離推定(SDE)の損失を再導入する。
論文 参考訳(メタデータ) (2024-08-09T13:26:08Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Deep Dense and Convolutional Autoencoders for Unsupervised Anomaly
Detection in Machine Condition Sounds [55.18259748448095]
本報告では,DCASE 2020 チャレンジの第2タスクのために開発された2つの手法について述べる。
この課題には、異常音を検出する教師なしの学習が含まれており、トレーニングプロセス中に通常の機械作業条件サンプルのみが利用可能である。
この2つの手法は、メルスペクトグラム処理された音響特徴を用いた密集的および畳み込み的アーキテクチャに基づくディープオートエンコーダを含む。
論文 参考訳(メタデータ) (2020-06-18T10:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。