論文の概要: ASiT: Audio Spectrogram vIsion Transformer for General Audio
Representation
- arxiv url: http://arxiv.org/abs/2211.13189v1
- Date: Wed, 23 Nov 2022 18:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:25:11.927832
- Title: ASiT: Audio Spectrogram vIsion Transformer for General Audio
Representation
- Title(参考訳): ASiT:一般的な音声表現のためのオーディオスペクトログラムvIsion変換器
- Authors: Sara Atito, Muhammad Awais, Wenwu Wang, Mark D Plumbley, Josef Kittler
- Abstract要約: 汎用音声表現のための自己教師型トランスフォーマであるASiTを提案する。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
提案したASiTフレームワークは,すべてのタスクのパフォーマンスを大幅に向上させ,5つの音声および音声の分類タスクに対して,最先端のパフォーマンスを新たに設定する。
- 参考スコア(独自算出の注目度): 67.78880574132924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers, which were originally developed for natural language
processing, have recently generated significant interest in the computer vision
and audio communities due to their flexibility in learning long-range
relationships. Constrained by data hungry nature of transformers and limited
labelled data most transformer-based models for audio tasks are finetuned from
ImageNet pretrained models, despite the huge gap between the natural images
domain and audio domain. This has motivated the research in self-supervised
pretraining of audio transformers, which reduces the dependency on large
amounts of labeled data and focuses on extracting concise representation of the
audio spectrograms. In this paper, we propose ASiT, a novel self-supervised
transformer for general audio representations that captures local and global
contextual information employing group masked model learning and
self-distillation. We evaluate our pretrained models on both audio and speech
classification tasks including audio event classification, keyword spotting,
and speaker identification. We further conduct comprehensive ablation studies,
including evaluations of different pretraining strategies. The proposed ASiT
framework significantly boosts the performance on all tasks and sets a new
state-of-the-art performance on five audio and speech classification tasks,
outperforming recent methods, including the approaches that use additional
datasets for pretraining. The code and pretrained weights will be made publicly
available for the scientific community.
- Abstract(参考訳): 元々自然言語処理用に開発されたビジョントランスフォーマーは、長距離関係の学習に柔軟性があることから、コンピュータビジョンとオーディオコミュニティに大きな関心を集めている。
トランスフォーマーと制限付きデータによって制限される オーディオタスク用のトランスフォーマーベースのほとんどのモデルは、自然画像ドメインとオーディオドメインの間に大きなギャップがあるにもかかわらず、imagenetプリトレーニングされたモデルから微調整される。
これは、オーディオトランスフォーマの自己教師あり事前学習の研究の動機となり、大量のラベル付きデータへの依存を減らし、オーディオスペクトログラムの簡潔な表現の抽出に焦点を当てた。
本稿では,グループマスキングモデル学習と自己蒸留を用いた局所的・グローバルな文脈情報をキャプチャする汎用音声表現用自己教師型トランスフォーマであるASiTを提案する。
我々は,音声イベント分類,キーワードスポッティング,話者識別を含む音声と音声の分類タスクにおいて,事前学習したモデルを評価する。
我々はさらに,様々な事前訓練戦略の評価を含む包括的アブレーション研究を行う。
提案したASiTフレームワークは、すべてのタスクのパフォーマンスを大幅に向上させ、5つのオーディオおよび音声分類タスクに新しい最先端のパフォーマンスを設定し、事前トレーニングに追加データセットを使用するアプローチを含む最近の手法より優れている。
コードと事前訓練された重量は、科学コミュニティ向けに公開されます。
関連論文リスト
- A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文 参考訳(メタデータ) (2022-10-06T11:45:14Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。