論文の概要: MAT-SED: AMasked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection
- arxiv url: http://arxiv.org/abs/2408.08673v1
- Date: Fri, 16 Aug 2024 11:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:45:34.988112
- Title: MAT-SED: AMasked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection
- Title(参考訳): MAT-SED:マスケリコンストラクタを用いた音響イベント検出のための事前学習
- Authors: Pengfei Cai, Yan Song, Kang Li, Haoyu Song, Ian McLoughlin,
- Abstract要約: MAT-SEDと呼ばれるマスク付き再構成に基づく事前学習型トランスフォーマーベースSEDモデルを提案する。
エンコーダとコンテキストネットワークは、共に半教師付きで微調整される。
- 参考スコア(独自算出の注目度): 18.0885324380572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event detection (SED) methods that leverage a large pre-trained Transformer encoder network have shown promising performance in recent DCASE challenges. However, they still rely on an RNN-based context network to model temporal dependencies, largely due to the scarcity of labeled data. In this work, we propose a pure Transformer-based SED model with masked-reconstruction based pre-training, termed MAT-SED. Specifically, a Transformer with relative positional encoding is first designed as the context network, pre-trained by the masked-reconstruction task on all available target data in a self-supervised way. Both the encoder and the context network are jointly fine-tuned in a semi-supervised manner. Furthermore, a global-local feature fusion strategy is proposed to enhance the localization capability. Evaluation of MAT-SED on DCASE2023 task4 surpasses state-of-the-art performance, achieving 0.587/0.896 PSDS1/PSDS2 respectively.
- Abstract(参考訳): 大規模なトレーニング済みトランスフォーマーエンコーダネットワークを利用する音響イベント検出(SED)手法は,最近のDCASE課題において有望な性能を示した。
しかし、主にラベル付きデータの不足のために、時間的依存をモデル化するためにRNNベースのコンテキストネットワークに依存している。
本研究では,マスク付き再構成に基づく事前学習モデルであるMAT-SEDを提案する。
具体的には、まず、相対的な位置エンコーディングを持つトランスフォーマーをコンテキストネットワークとして設計する。
エンコーダとコンテキストネットワークは、共に半教師付きで微調整される。
さらに,ローカライゼーション能力を高めるため,グローバルな特徴融合戦略を提案する。
DCASE2023 Task4におけるMAT-SEDの評価は最先端性能を超え,それぞれ0.587/0.896 PSDS1/PSDS2を達成した。
関連論文リスト
- UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Efficient Sparsely Activated Transformers [0.34410212782758054]
トランスフォーマーベースのニューラルネットワークは、多くの機械学習ドメインで最先端のタスクパフォーマンスを実現している。
最近の研究は、これらのネットワークへの動的挙動の混合層(mixed-of-expert layer)の形での統合について検討している。
我々は,既存のTransformerベースのネットワークとユーザ定義のレイテンシターゲットを取り入れたPLANERという新しいシステムを導入する。
論文 参考訳(メタデータ) (2022-08-31T00:44:27Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Context-Aware Transformer Transducer for Speech Recognition [21.916660252023707]
本稿では,この文脈信号を利用して,最先端の変圧器ベースASRシステムを改善する新しい文脈対応変圧器トランスデューサ(CATT)ネットワークを提案する。
BERTベースのコンテキストエンコーダを用いたCATTは、ベースライントランスデューサの単語誤り率を改善し、既存の深層文脈モデルよりも24.2%、19.4%向上することを示す。
論文 参考訳(メタデータ) (2021-11-05T04:14:35Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - UHH-LT at SemEval-2020 Task 12: Fine-Tuning of Pre-Trained Transformer
Networks for Offensive Language Detection [28.701023986344993]
BERTのような事前訓練されたトランスフォーマーネットワークの微調整により、テキスト分類タスクの最先端結果が得られる。
私たちのRoBERTaベースの分類器は、英語のSemEval 2020 Task12で公式に第1位にランクされています。
論文 参考訳(メタデータ) (2020-04-23T23:59:58Z) - A Multi-Scale Tensor Network Architecture for Classification and
Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。
我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。
ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2020-01-22T21:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。