論文の概要: Asca: less audio data is more insightful
- arxiv url: http://arxiv.org/abs/2309.13373v1
- Date: Sat, 23 Sep 2023 13:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 20:23:40.162436
- Title: Asca: less audio data is more insightful
- Title(参考訳): Asca: オーディオデータの少ない方が洞察力が高い
- Authors: Xiang Li, Junhao Chen, Chao Li, Hongwu Lv
- Abstract要約: 本稿では,CoAtNetに基づくASCA(Audio Spectrogram Convolution Attention)を紹介する。
BirdCLEF2023とAudioSet(Balanced)では、それぞれ81.2%と35.1%の精度を達成した。
モデル固有の構造は出力を豊かにし、様々な音声検出タスクをまたいだ一般化を可能にする。
- 参考スコア(独自算出の注目度): 10.354385253247761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio recognition in specialized areas such as birdsong and submarine
acoustics faces challenges in large-scale pre-training due to the limitations
in available samples imposed by sampling environments and specificity
requirements. While the Transformer model excels in audio recognition, its
dependence on vast amounts of data becomes restrictive in resource-limited
settings. Addressing this, we introduce the Audio Spectrogram Convolution
Attention (ASCA) based on CoAtNet, integrating a Transformer-convolution hybrid
architecture, novel network design, and attention techniques, further augmented
with data enhancement and regularization strategies. On the BirdCLEF2023 and
AudioSet(Balanced), ASCA achieved accuracies of 81.2% and 35.1%, respectively,
significantly outperforming competing methods. The unique structure of our
model enriches output, enabling generalization across various audio detection
tasks. Our code can be found at https://github.com/LeeCiang/ASCA.
- Abstract(参考訳): 鳥の鳴き声や潜水艦の音響などの特殊分野における音声認識は、サンプリング環境と特異性要件によって課されるサンプルの制限により、大規模な事前訓練の課題に直面している。
Transformerモデルは音声認識において優れているが、リソース制限設定では大量のデータへの依存が制限される。
そこで我々は,CoAtNetに基づくASCA(Audio Spectrogram Convolution Attention)を導入し,トランスフォーマー-畳み込みハイブリッドアーキテクチャ,新しいネットワーク設計,アテンション技術を統合し,さらにデータ拡張と正規化戦略を付加した。
birdclef2023とaudioset(balanced)では、ascaはそれぞれ81.2%と35.1%の精度で競合手法を上回った。
モデル固有の構造は出力を豊かにし、様々な音声検出タスクの一般化を可能にする。
私たちのコードはhttps://github.com/LeeCiang/ASCA.orgで参照できます。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。