Fugu-MT 論文翻訳(概要): Study of positional encoding approaches for Audio Spectrogram Transformers

論文の概要: Study of positional encoding approaches for Audio Spectrogram Transformers

arxiv url: http://arxiv.org/abs/2110.06999v1
Date: Wed, 13 Oct 2021 19:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-16 09:24:33.661367
Title: Study of positional encoding approaches for Audio Spectrogram Transformers
Title（参考訳）: オーディオスペクトログラム変換器における位置符号化手法の検討
Authors: Leonardo Pepino and Pablo Riera and Luciana Ferrer
Abstract要約: 本稿では,Audio Spectrogram Transformer (AST) の1成分について検討し,その性能向上のためにいくつかの変種を提案する。条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。
参考スコア（独自算出の注目度）: 16.829474982595837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.
Abstract（参考訳）: トランスフォーマーは、特に自然言語処理の分野で、ディープラーニングの世界に革命をもたらした。近年,オーディオ・スペクトログラム・トランスフォーマー (AST) が音声分類のために提案され,いくつかのデータセットで結果が得られた。しかし、ASTがCNNを上回るためには、ImageNetでの事前トレーニングが必要である。本稿では,ASTの1つのコンポーネントである位置符号化について検討し,ImageNetの事前学習を必要とせず,スクラッチからトレーニングしたASTの性能を改善するためにいくつかの変種を提案する。条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。

関連論文リスト

Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions [15.472819870523093]
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-11T17:29:56Z)
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文参考訳（メタデータ） (2024-01-16T14:59:37Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文参考訳（メタデータ） (2023-06-16T05:42:01Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Audio-Visual Scene Classification Using A Transfer Learning Based Joint Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文参考訳（メタデータ） (2022-04-25T03:37:02Z)
SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文参考訳（メタデータ） (2021-10-19T07:58:28Z)
Efficient Training of Audio Transformers with Patchout [7.073210405344709]
音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-11T08:07:50Z)
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文参考訳（メタデータ） (2021-04-22T17:07:41Z)
Relative Positional Encoding for Speech Recognition and Direct Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文参考訳（メタデータ） (2020-05-20T09:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。