論文の概要: Self-supervised Audio Teacher-Student Transformer for Both Clip-level
and Frame-level Tasks
- arxiv url: http://arxiv.org/abs/2306.04186v1
- Date: Wed, 7 Jun 2023 06:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:59:17.472120
- Title: Self-supervised Audio Teacher-Student Transformer for Both Clip-level
and Frame-level Tasks
- Title(参考訳): クリップレベルとフレームレベルを両立する自己教師間トランスフォーマ
- Authors: Xian Li, Nian Shao, and Xiaofei Li
- Abstract要約: 本稿では,ATST-ClipとATST-Frameの2つの自己教師型音声表現学習手法を提案する。
我々のATST-Frameモデルは、クリップレベルおよびフレームレベルの下流タスクのほとんどにおいて、最先端(SOTA)性能を得る。
- 参考スコア(独自算出の注目度): 27.21756798807213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, self-supervised learning (SSL) has emerged as a popular
approach for learning audio representations. The ultimate goal of audio
self-supervised pre-training is to transfer knowledge to downstream audio
tasks, generally including clip-level and frame-level tasks. Clip-level tasks
classify the scene or sound of an entire audio clip, e.g. audio tagging,
instrument recognition, etc. While frame-level tasks detect event-level
timestamps from an audio clip, e.g. sound event detection, speaker diarization,
etc. Prior studies primarily evaluate on clip-level downstream tasks.
Frame-level tasks are important for fine-grained acoustic scene/event
understanding, and are generally more challenging than clip-level tasks. In
order to tackle both clip-level and frame-level tasks, this paper proposes two
self-supervised audio representation learning methods: ATST-Clip and
ATST-Frame, responsible for learning clip-level and frame-level
representations, respectively. ATST stands for Audio Teacher-Student
Transformer, which means both methods use a transformer encoder and a
teacher-student training scheme.Experimental results show that our ATST-Frame
model obtains state-of-the-art (SOTA) performance on most of the clip-level and
frame-level downstream tasks. Especially, it outperforms other models by a
large margin on the frame-level sound event detection task. In addition, the
performance can be further improved by combining the two models through
knowledge distillation.
- Abstract(参考訳): 近年,音声表現の学習手段としては,自己教師付き学習(SSL)が普及している。
オーディオ自己教師型事前学習の最終的な目標は、一般的にクリップレベルやフレームレベルのタスクを含む下流オーディオタスクに知識を伝達することである。
クリップレベルのタスクは、オーディオタグ付け、楽器認識など、オーディオクリップ全体のシーンまたはサウンドを分類する。
フレームレベルのタスクはオーディオクリップからイベントレベルのタイムスタンプ(音声イベント検出、話者ダイアリゼーションなど)を検出する。
先行研究では、主にクリップレベルのダウンストリームタスクを評価する。
フレームレベルのタスクは細かな音響シーン/イベント理解に重要であり、一般的にクリップレベルのタスクよりも難しい。
本稿では、クリップレベルとフレームレベルの両方に対処するために、クリップレベルとフレームレベルをそれぞれ学習するATST-ClipとATST-Frameの2つの自己教師型音声表現学習手法を提案する。
atstは「audio teacher-sudent transformer」の略で、両方の方法がトランスフォーマーエンコーダと教師-sudentトレーニングスキームを使用することを意味する。
特に、フレームレベルの音響イベント検出タスクにおいて、他のモデルよりも大きなマージンで勝っている。
さらに、知識蒸留により2つのモデルを組み合わせることにより、さらなる性能向上が図られる。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Weakly Supervised Action Selection Learning in Video [8.337649176647645]
行動選択学習(Action Selection Learning)は、行動の一般的な概念、つまり「行動性」をとらえるために提案される。
我々は、ASLがTHUMOS-14とActivityNet-1.2の2つの一般的なベンチマークのベースラインを上回り、10.3%と5.7%の相対的な改善を示した。
論文 参考訳(メタデータ) (2021-05-06T04:39:29Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。