論文の概要: Pre-training with Synthetic Patterns for Audio
- arxiv url: http://arxiv.org/abs/2410.00511v1
- Date: Tue, 1 Oct 2024 08:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:07:10.056217
- Title: Pre-training with Synthetic Patterns for Audio
- Title(参考訳): 音声合成パターンによる事前学習
- Authors: Yuchi Ishikawa, Tatsuya Komatsu, Yoshimitsu Aoki,
- Abstract要約: 本稿では,実際の音声データの代わりに合成パターンを用いた音声エンコーダの事前学習を提案する。
本フレームワークは,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 18.769951782213973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose to pre-train audio encoders using synthetic patterns instead of real audio data. Our proposed framework consists of two key elements. The first one is Masked Autoencoder (MAE), a self-supervised learning framework that learns from reconstructing data from randomly masked counterparts. MAEs tend to focus on low-level information such as visual patterns and regularities within data. Therefore, it is unimportant what is portrayed in the input, whether it be images, audio mel-spectrograms, or even synthetic patterns. This leads to the second key element, which is synthetic data. Synthetic data, unlike real audio, is free from privacy and licensing infringement issues. By combining MAEs and synthetic patterns, our framework enables the model to learn generalized feature representations without real data, while addressing the issues related to real audio. To evaluate the efficacy of our framework, we conduct extensive experiments across a total of 13 audio tasks and 17 synthetic datasets. The experiments provide insights into which types of synthetic patterns are effective for audio. Our results demonstrate that our framework achieves performance comparable to models pre-trained on AudioSet-2M and partially outperforms image-based pre-training methods.
- Abstract(参考訳): 本稿では,実音声データの代わりに合成パターンを用いた事前学習型オーディオエンコーダを提案する。
提案するフレームワークは2つのキー要素から構成される。
第1のMasked Autoencoder(MAE)は、ランダムにマスクされたデータからデータを再構築することから学習する自己教師型学習フレームワークである。
MAEは、データ内の視覚的パターンや規則性といった低レベルの情報に焦点を当てる傾向があります。
したがって、画像、オーディオ・メル・スペクトログラム、あるいは合成パターンであっても、入力で何を表現するかは重要ではない。
これは合成データである第2のキー要素につながる。
合成データは、実際のオーディオとは違って、プライバシーやライセンス侵害の問題は発生しない。
このフレームワークは,MAEと合成パターンを組み合わせることで,実際の音声に関連する問題に対処しながら,実データなしで一般化された特徴表現を学習することを可能にする。
本フレームワークの有効性を評価するため,13の音声タスクと17の合成データセットからなる広範囲な実験を行った。
この実験は、どの種類の合成パターンが音声に有効であるかの洞察を与える。
本研究では,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現し,画像ベースの事前学習手法を部分的に上回っていることを示す。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。
この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文 参考訳(メタデータ) (2024-09-18T20:33:54Z) - Contrastive Learning from Synthetic Audio Doppelgangers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。
論文 参考訳(メタデータ) (2024-06-09T21:44:06Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。