論文の概要: SpliceOut: A Simple and Efficient Audio Augmentation Method
- arxiv url: http://arxiv.org/abs/2110.00046v1
- Date: Thu, 30 Sep 2021 18:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:42:31.071932
- Title: SpliceOut: A Simple and Efficient Audio Augmentation Method
- Title(参考訳): SpliceOut: シンプルで効率的なオーディオ拡張方法
- Authors: Arjit Jain, Pranay Reddy Samala, Deepak Mittal, Preethi Jyoti, Maneesh
Singh
- Abstract要約: 時間マスキングは、音声および音声タスクのデファクト拡張技術となっている。
本研究では,時間マスキングの簡易な修正であるSpliceOutを提案する。
- 参考スコア(独自算出の注目度): 10.711103348390733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time masking has become a de facto augmentation technique for speech and
audio tasks, including automatic speech recognition (ASR) and audio
classification, most notably as a part of SpecAugment. In this work, we propose
SpliceOut, a simple modification to time masking which makes it computationally
more efficient. SpliceOut performs comparably to (and sometimes outperforms)
SpecAugment on a wide variety of speech and audio tasks, including ASR for
seven different languages using varying amounts of training data, as well as on
speech translation, sound and music classification, thus establishing itself as
a broadly applicable audio augmentation method. SpliceOut also provides
additional gains when used in conjunction with other augmentation techniques.
Apart from the fully-supervised setting, we also demonstrate that SpliceOut can
complement unsupervised representation learning with performance gains in the
semi-supervised and self-supervised settings.
- Abstract(参考訳): 時間マスキングは、自動音声認識(ASR)や音声分類(特にSpecAugmentの一部として)など、音声および音声タスクの事実上の強化技術となっている。
本研究では,時間マスキングの簡易な修正であるSpliceOutを提案する。
spliceoutは、さまざまなトレーニングデータを使用した7つの異なる言語のためのasrを含む、さまざまな音声および音声タスクの仕様と、音声翻訳、音声、音楽の分類に比較可能であり、広く適用可能な音声拡張手法としての地位を確立している。
spliceoutは、他の拡張技術と併用することで、さらなる利益を提供する。
完全な教師付き設定は別として,半教師付きおよび自己教師付き設定のパフォーマンス向上とともに,教師なし表現学習を補完できることを実証する。
関連論文リスト
- Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Multiscale Audio Spectrogram Transformer for Efficient Audio
Classification [1.797470734877199]
階層型表現学習を用いたマルチスケール音声スペクトログラム変換器(MAST)を開発した。
具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
論文 参考訳(メタデータ) (2023-03-19T20:21:29Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech
Translation [12.292167129361825]
自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。
この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。
提案手法は,英語$to$ Frenchと英語$to$Romanian Automatic Speech Translation (AST)タスクのSpecAugmentと比較した。
論文 参考訳(メタデータ) (2020-02-27T16:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。