Fugu-MT 論文翻訳(概要): ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification

論文の概要: ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification

arxiv url: http://arxiv.org/abs/2211.13189v2
Date: Sun, 10 Mar 2024 19:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 18:00:58.121039
Title: ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification
Title（参考訳）: ASiT:イベント分類のためのローカルGlobal Audio Spectrogram vIsion Transformer
Authors: Sara Atito, Muhammad Awais, Wenwu Wang, Mark D Plumbley, Josef Kittler
Abstract要約: ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
参考スコア（独自算出の注目度）: 42.95038619688867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers, which were originally developed for natural language processing, have recently generated significant interest in the computer vision and audio communities due to their flexibility in learning long-range relationships. Constrained by the data hungry nature of transformers and the limited amount of labelled data, most transformer-based models for audio tasks are finetuned from ImageNet pretrained models, despite the huge gap between the domain of natural images and audio. This has motivated the research in self-supervised pretraining of audio transformers, which reduces the dependency on large amounts of labeled data and focuses on extracting concise representations of audio spectrograms. In this paper, we propose \textbf{L}ocal-\textbf{G}lobal \textbf{A}udio \textbf{S}pectrogram v\textbf{I}sion \textbf{T}ransformer, namely ASiT, a novel self-supervised learning framework that captures local and global contextual information by employing group masked model learning and self-distillation. We evaluate our pretrained models on both audio and speech classification tasks, including audio event classification, keyword spotting, and speaker identification. We further conduct comprehensive ablation studies, including evaluations of different pretraining strategies. The proposed ASiT framework significantly boosts the performance on all tasks and sets a new state-of-the-art performance in five audio and speech classification tasks, outperforming recent methods, including the approaches that use additional datasets for pretraining.
Abstract（参考訳）: 自然言語処理用に開発されたトランスフォーマーは、近年、長距離関係の学習に柔軟性があることから、コンピュータビジョンとオーディオコミュニティに大きな関心を集めている。トランスフォーマーのデータ空腹の性質とラベル付きデータの制限により、ほとんどのトランスフォーマーベースのオーディオタスクモデルは、自然画像とオーディオの領域の間に大きなギャップがあるにもかかわらず、ImageNet事前訓練されたモデルから微調整される。これは、オーディオトランスフォーマの自己教師あり事前学習の研究の動機となり、大量のラベル付きデータへの依存を減らし、オーディオスペクトログラムの簡潔な表現の抽出に焦点を当てた。本稿では,グループマスク付きモデル学習と自己蒸留を用いて局所的およびグローバルな文脈情報をキャプチャする,新たな自己教師型学習フレームワークであるASiTを提案する。音声イベント分類,キーワードスポッティング,話者識別など,音声と音声の分類タスクにおいて,事前学習したモデルを評価する。我々はさらに,様々な事前訓練戦略の評価を含む包括的アブレーション研究を行う。提案したASiTフレームワークは、すべてのタスクのパフォーマンスを大幅に向上させ、5つのオーディオおよび音声分類タスクにおける最先端のパフォーマンスを新たに設定する。

関連論文リスト

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging [23.464493621300242]
この研究は、特徴理解を強化するグラフベースモデルであるLocal-Higher Order Graph Neural Network (LHGNN)を紹介する。公開されている3つのオーディオデータセットに対するモデルの評価は、Transformerベースのモデルをすべてのベンチマークで上回っていることを示している。
論文参考訳（メタデータ） (2025-01-07T01:45:39Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文参考訳（メタデータ） (2024-09-15T01:54:17Z)
Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文参考訳（メタデータ） (2024-08-17T18:53:17Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文参考訳（メタデータ） (2022-10-06T11:45:14Z)
BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文参考訳（メタデータ） (2022-06-24T02:26:40Z)
SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文参考訳（メタデータ） (2021-10-19T07:58:28Z)
A study on the efficacy of model pre-training in developing neural text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-08T02:09:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。