論文の概要: Audio-JEPA: Joint-Embedding Predictive Architecture for Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2507.02915v1
- Date: Wed, 25 Jun 2025 08:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.517918
- Title: Audio-JEPA: Joint-Embedding Predictive Architecture for Audio Representation Learning
- Title(参考訳): Audio-JEPA: 音声表現学習のための統合埋め込み予測アーキテクチャ
- Authors: Ludovic Tuncay, Etienne Labbé, Emmanouil Benetos, Thomas Pellegrini,
- Abstract要約: Audio-JEPAは、生の音声を再構成するのではなく、マスク付きスペクトログラムパッチの潜時表現を予測する。
メログラムにランダムなパッチマスキングを施した未ラベルのAudioSetクリップ(10s, 32kHz)を事前トレーニングした。
その結果、トレーニングデータの5分の1未満を使用しながら、wav2vec 2.0とdata2vecに匹敵するパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 17.553278541645927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the Joint-Embedding Predictive Architecture (JEPA) paradigm, a recent self-supervised learning framework that predicts latent representations of masked regions in high-level feature spaces, we propose Audio-JEPA (Audio Joint-Embedding Predictive Architecture), tailored specifically for audio data. Audio-JEPA uses a simple Vision Transformer backbone to predict latent representations of masked spectrogram patches rather than reconstructing raw audio. We pre-train on unlabeled AudioSet clips (10s, 32kHz) with random patch masking on mel-spectrograms. We evaluate on the X-ARES suite covering speech, music, and environmental sound tasks. Although our implementation is a straightforward translation of the original model to audio, the results still show comparable performance to wav2vec 2.0 and data2vec while using less than one-fifth of their training data and with no hyper-parameter tuning. All code and pretrained checkpoints will be released on GitHub.
- Abstract(参考訳): JEPA(Joint-Embedding Predictive Architecture)パラダイムは、ハイレベルな特徴空間におけるマスキング領域の潜伏表現を予測する、近年の自己教師型学習フレームワークであり、音声データに特化したオーディオJEPA(Audio Joint-Embedding Predictive Architecture)を提案する。
Audio-JEPAは、単純なVision Transformerのバックボーンを使用して、生のオーディオを再構成するのではなく、マスク付きスペクトログラムパッチの潜時表現を予測する。
メログラムにランダムなパッチマスキングを施した未ラベルのAudioSetクリップ(10s, 32kHz)を事前トレーニングした。
音声,音楽,環境音のタスクをカバーするX-ARESスイートについて検討した。
我々の実装はオリジナルモデルのオーディオへの直接変換であるが、その結果は、トレーニングデータの5分の1未満を使用し、ハイパーパラメータチューニングを行わずに、wav2vec 2.0とdata2vecに匹敵する性能を示している。
すべてのコードと事前訓練されたチェックポイントがGitHubでリリースされる。
関連論文リスト
- AudioMAE++: learning better masked audio representations with SwiGLU FFNs [16.359968937403405]
Masked Autoencoders (MAEs) は、音声スペクトログラムパッチを訓練し、自己教師付き音声表現を学習するための顕著なアプローチとして登場した。
本稿では,音声マスク付きオートエンコーダであるAudioMAE++を提案する。
AudioSetデータセットで事前トレーニングされた場合、提案されたAudioMAE++モデルは、既存のMAEベースの10のダウンストリームタスクよりも優れている。
論文 参考訳(メタデータ) (2025-07-14T16:41:03Z) - Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。
我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文 参考訳(メタデータ) (2024-12-16T05:03:48Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。