論文の概要: AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes
- arxiv url: http://arxiv.org/abs/2308.07221v3
- Date: Thu, 17 Aug 2023 02:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 21:55:17.363203
- Title: AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes
- Title(参考訳): AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する
- Authors: Zhaohui Li and Haitao Wang and Xinghua Jiang
- Abstract要約: 離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
- 参考スコア(独自算出の注目度): 6.375996974877916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a method named AudioFormer,which learns audio feature
representations through the acquisition of discrete acoustic codes and
subsequently fine-tunes them for audio classification tasks. Initially,we
introduce a novel perspective by considering the audio classification task as a
form of natural language understanding (NLU). Leveraging an existing neural
audio codec model,we generate discrete acoustic codes and utilize them to train
a masked language model (MLM),thereby obtaining audio feature representations.
Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive
(MPC) learning approach. This method enables the learning of joint
representations among multiple discrete acoustic codes within the same audio
input. In our experiments,we treat discrete acoustic codes as textual data and
train a masked language model using a cloze-like methodology,ultimately
deriving high-quality audio representations. Notably,the MPC learning technique
effectively captures collaborative representations among distinct positive
samples. Our research outcomes demonstrate that AudioFormer attains
significantly improved performance compared to prevailing monomodal audio
classification models across multiple datasets,and even outperforms
audio-visual multimodal classification models on select datasets.
Specifically,our approach achieves remarkable results on datasets including
AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and
65.6,respectively. We have openly shared both the code and models:
https://github.com/LZH-0225/AudioFormer.git.
- Abstract(参考訳): 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。
まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。
既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。
さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。
同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。
実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。
特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。
その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。
具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。
私たちは、コードとモデルの両方をオープンに共有しました。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。