論文の概要: Self-supervised Audio Teacher-Student Transformer for Both Clip-level
and Frame-level Tasks
- arxiv url: http://arxiv.org/abs/2306.04186v2
- Date: Tue, 7 Nov 2023 09:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 22:31:25.959939
- Title: Self-supervised Audio Teacher-Student Transformer for Both Clip-level
and Frame-level Tasks
- Title(参考訳): クリップレベルとフレームレベルを両立する自己教師間トランスフォーマ
- Authors: Xian Li, Nian Shao, and Xiaofei Li
- Abstract要約: 本稿では、クリップレベルバージョン(ATST-Clip)とフレームレベルバージョン(ATST-Frame)を併用したATST(Audio Teacher-Student Transformer)を提案する。
我々は、ATST-ClipとATST-Frameのビュー作成戦略を慎重に設計し、特に、ATST-Clipはセグメントワイドデータ拡張を使用し、ATST-Frameはフレームワイドデータ拡張とマスキングを統合している。
- 参考スコア(独自算出の注目度): 37.415566489374804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has emerged as a popular approach for learning
audio representations. One goal of audio self-supervised pre-training is to
transfer knowledge to downstream audio tasks, generally including clip-level
and frame-level tasks. While frame-level tasks are important for fine-grained
acoustic scene/event understanding, prior studies primarily evaluate on
clip-level downstream tasks. In order to tackle both clip-level and frame-level
tasks, this paper proposes Audio Teacher-Student Transformer (ATST), with a
clip-level version (named ATST-Clip) and a frame-level version (named
ATST-Frame), responsible for learning clip-level and frame-level
representations, respectively. Both methods use a Transformer encoder and a
teacher-student training scheme. We have carefully designed the view creation
strategy for ATST-Clip and ATST-Frame. Specifically, ATST-Clip uses
segment-wise data augmentations, and ATST-Frame integrates frame-wise data
augmentations and masking. Experimental results show that our ATST-Frame model
obtains state-of-the-art (SOTA) performances on most of the clip-level and
frame-level downstream tasks. Especially, it outperforms other models by a
large margin on the frame-level sound event detection task. In addition, the
performance can be further improved by combining the two models through
knowledge distillation. Our code is available online.
- Abstract(参考訳): 自己教師付き学習(SSL)は、音声表現を学習するための一般的なアプローチである。
オーディオ自己教師型事前学習の目標は、一般的にクリップレベルやフレームレベルのタスクを含む下流オーディオタスクに知識を伝達することである。
フレームレベルのタスクはきめ細かい音響シーン/イベント理解に重要であるが、以前の研究は主にクリップレベルのダウンストリームタスクで評価されている。
本稿では,クリップレベルとフレームレベルの両方のタスクに取り組むために,クリップレベルバージョン(atst-clip)とフレームレベルバージョン(atst-frame)を用いて,クリップレベルとフレームレベルの表現をそれぞれ学習するオーディオ教師用トランスフォーマー(atst)を提案する。
どちらの方法も、トランスフォーマーエンコーダと教師・生徒のトレーニングスキームを使用する。
我々は、ATST-ClipとATST-Frameのビュー作成戦略を慎重に設計した。
具体的には、ATST-Clipはセグメントワイドデータ拡張を使用し、ATST-Frameはフレームワイドデータ拡張とマスキングを統合する。
実験の結果,ATST-Frameモデルでは,クリップレベルおよびフレームレベルの下流タスクのほとんどにおいて,最先端(SOTA)の性能が得られた。
特に、フレームレベルの音響イベント検出タスクにおいて、他のモデルよりも大きなマージンで勝っている。
さらに、知識蒸留により2つのモデルを組み合わせることにより、さらなる性能向上が図られる。
私たちのコードはオンラインで入手できる。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Weakly Supervised Action Selection Learning in Video [8.337649176647645]
行動選択学習(Action Selection Learning)は、行動の一般的な概念、つまり「行動性」をとらえるために提案される。
我々は、ASLがTHUMOS-14とActivityNet-1.2の2つの一般的なベンチマークのベースラインを上回り、10.3%と5.7%の相対的な改善を示した。
論文 参考訳(メタデータ) (2021-05-06T04:39:29Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。