論文の概要: A-JEPA: Joint-Embedding Predictive Architecture Can Listen
- arxiv url: http://arxiv.org/abs/2311.15830v2
- Date: Tue, 28 Nov 2023 03:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:57:20.244260
- Title: A-JEPA: Joint-Embedding Predictive Architecture Can Listen
- Title(参考訳): A-JEPA: 統合組み込み予測アーキテクチャ
- Authors: Zhengcong Fei, Mingyuan Fan, Junshi Huang
- Abstract要約: 本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
- 参考スコア(独自算出の注目度): 35.308323314848735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents that the masked-modeling principle driving the success of
large foundational vision models can be effectively applied to audio by making
predictions in a latent space. We introduce Audio-based Joint-Embedding
Predictive Architecture (A-JEPA), a simple extension method for self-supervised
learning from the audio spectrum. Following the design of I-JEPA, our A-JEPA
encodes visible audio spectrogram patches with a curriculum masking strategy
via context encoder, and predicts the representations of regions sampled at
well-designed locations. The target representations of those regions are
extracted by the exponential moving average of context encoder, \emph{i.e.},
target encoder, on the whole spectrogram. We find it beneficial to transfer
random block masking into time-frequency aware masking in a curriculum manner,
considering the complexity of highly correlated in local time and frequency in
audio spectrograms. To enhance contextual semantic understanding and
robustness, we fine-tune the encoder with a regularized masking on target
datasets, instead of input dropping or zero. Empirically, when built with
Vision Transformers structure, we find A-JEPA to be highly scalable and sets
new state-of-the-art performance on multiple audio and speech classification
tasks, outperforming other recent models that use externally supervised
pre-training.
- Abstract(参考訳): 本稿では,大規模視覚モデルの成功を駆動するマスク・モデリングの原理を,潜時空間での予測により効果的に適用できることを示す。
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAを提案する。
I-JEPAの設計に続いて、我々のA-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチを符号化し、よく設計された場所でサンプリングされた領域の表現を予測する。
これらの領域のターゲット表現は、スペクトル全体について、文脈エンコーダの指数的移動平均である \emph{i.e}, 目標エンコーダによって抽出される。
音声スペクトログラムの局所時間と周波数に高度に相関する複雑さを考慮して,ランダムブロックマスキングを時間周波数対応マスキングにカリキュラム的に移行することは有益である。
文脈意味理解とロバスト性を高めるため、入力ドロップやゼロではなく、ターゲットデータセットに正規化マスキングを施したエンコーダを微調整する。
経験的に、Vision Transformers構造で構築すると、A-JEPAは高度にスケーラブルであり、複数のオーディオおよび音声分類タスクで新しい最先端のパフォーマンスを設定できる。
関連論文リスト
- Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning [7.083341587100975]
Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Autoencoder (MAE)に代わる魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-10-14T17:46:24Z) - How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks [14.338754598043968]
データ表現の自己教師型学習には2つの競合パラダイムが存在する。
JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。
論文 参考訳(メタデータ) (2024-07-03T19:43:12Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Taming Visually Guided Sound Generation [21.397106355171946]
近年の視覚誘発音声生成の進歩は,短音,低忠実音,一級音のサンプリングに基づいている。
本稿では,オープンドメインビデオから一組のフレームで誘導される高忠実度音を,単一のGPUで再生するよりも少ない時間で生成できる単一モデルを提案する。
論文 参考訳(メタデータ) (2021-10-17T11:14:00Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。