論文の概要: Exploring Performance-Complexity Trade-Offs in Sound Event Detection
- arxiv url: http://arxiv.org/abs/2503.11373v1
- Date: Fri, 14 Mar 2025 13:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:22.142959
- Title: Exploring Performance-Complexity Trade-Offs in Sound Event Detection
- Title(参考訳): 音響イベント検出における性能・複雑性トレードオフの探索
- Authors: Tobias Morocutti, Florian Schmid, Jonathan Greif, Francesco Foscarin, Gerhard Widmer,
- Abstract要約: 音響事象検出タスクのための新しい低複雑さネットワークの開発課題について検討する。
音声タグ付けに先立って提案した低複雑さ畳み込みモデルは,イベント検出に効果的に適応できることがわかった。
最適化されたトレーニング戦略と組み合わせることで、最先端のトランスフォーマーに匹敵するイベント検出性能が得られることを示す。
- 参考スコア(独自算出の注目度): 3.035039100561926
- License:
- Abstract: We target the problem of developing new low-complexity networks for the sound event detection task. Our goal is to meticulously analyze the performance-complexity trade-off, aiming to be competitive with the large state-of-the-art models, at a fraction of the computational requirements. We find that low-complexity convolutional models previously proposed for audio tagging can be effectively adapted for event detection (which requires frame-wise prediction) by adjusting convolutional strides, removing the global pooling, and, importantly, adding a sequence model before the (now frame-wise) classification heads. Systematic experiments reveal that the best choice for the sequence model type depends on which complexity metric is most important for the given application. We also investigate the impact of enhanced training strategies such as knowledge distillation. In the end, we show that combined with an optimized training strategy, we can reach event detection performance comparable to state-of-the-art transformers while requiring only around 5% of the parameters. We release all our pre-trained models and the code for reproducing this work to support future research in low-complexity sound event detection at https://github.com/theMoro/EfficientSED.
- Abstract(参考訳): 我々は,音事象検出タスクのための新しい低複雑さネットワークの開発を目標としている。
我々のゴールは、計算要求のごく一部で、大規模な最先端モデルと競合することを目的として、パフォーマンス・複雑さのトレードオフを慎重に分析することである。
従来提案されていた低複雑さの畳み込みモデルは,畳み込みの進行を調整し,大域的なプーリングを除去し,さらに,(現在フレームワイドな)分類ヘッドの前にシーケンスモデルを追加することで,イベント検出(フレームワイドな予測)に効果的に適用できることがわかった。
体系的な実験により、シーケンスモデル型の最良の選択は、与えられたアプリケーションにとってどの複雑さの計量が最も重要であるかに依存することが明らかになった。
また,知識蒸留などの教育戦略の強化が与える影響についても検討した。
最後に、最適化されたトレーニング戦略と組み合わせることで、パラメータの5%程度しか必要とせず、最先端のトランスフォーマーに匹敵するイベント検出性能が得られることを示す。
我々は、この研究を再現するためのすべての事前訓練されたモデルとコードをリリースし、https://github.com/theMoro/EfficientSEDにおける低複雑さ音イベント検出における将来の研究を支援する。
関連論文リスト
- Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。
このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。
提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文 参考訳(メタデータ) (2023-09-06T17:08:57Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Incremental Learning Algorithm for Sound Event Detection [0.8399688944263841]
本稿では,事前学習したモデルから新たなターゲットモデルへの知識移行の問題に対処するため,音事象検出システム(SED)の新たな学習戦略を提案する。
学習済みの知識をソースモデルからターゲットモデルに移行するために、ソースモデルのトップにニューラルアダプタが使用される。
ニューラルアダプタ層は、トレーニングデータを最小限にして新たな音イベントを学習し、ソースモデルと同様の学習済みの音イベントの性能を維持することを目標モデルに促す。
論文 参考訳(メタデータ) (2020-03-26T22:32:11Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。