論文の概要: JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
- arxiv url: http://arxiv.org/abs/2512.07168v1
- Date: Mon, 08 Dec 2025 05:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.712306
- Title: JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
- Title(参考訳): ニューラルトケナイザとしてのJEPA:密度適応的注意によるロバスト音声表現の学習
- Authors: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun,
- Abstract要約: 本稿では,JEPA(Joint-Embedding Predictive Architecture)とDAAM(Dedentity Adaptive Attention Mechanism)を組み合わせた2段階の自己組織化フレームワークを提案する。
Stage1はJEPAとDAAMを使用して、波形再構成から完全に切り離された潜在空間におけるマスク付き予測を通じてセマンティックオーディオ機能を学ぶ。
Stage2は、これらの表現をFinite Scalar Quantization (FSQ)とMix-radix Packingスキームを用いた効率的なトークン化に利用し、次いでHiFi-GANデコーダを用いた高忠実な波形再構成を行う。
- 参考スコア(独自算出の注目度): 47.304088800992474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
- Abstract(参考訳): 本稿では,JEPA(Joint-Embedding Predictive Architecture)とDAAM(Dedentity Adaptive Attention Mechanism)を組み合わせた2段階の自己教師型フレームワークを提案する。
Stage~1では、DAAMとJEPAを使用して、波形再構成から完全に切り離された潜在空間におけるマスク付き予測を通じてセマンティックオーディオ機能を学ぶ。
Stage~2では、これらの表現をFinite Scalar Quantization (FSQ)とMix-radix Packingスキームを用いて効率的なトークン化に利用し、次いでHiFi-GANデコーダを用いた高忠実な波形再構成を行う。
ガウス混合に基づく密度適応ゲーティングをJEPAエンコーダに統合することにより、適応的時間的特徴選択を行い、2.5〜Hzの低フレームレートで階層的な音声構造を発見する。
結果として得られるトークン(47.5トークン/秒)は、既存のニューラルオーディオコーデックと競合する、可逆的で、非常に圧縮され、言語モデルに優しい表現を提供する。
関連論文リスト
- AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement [14.435791985655117]
AUREXA-SE(音声強調のためのクロスアテンションとスキーゼフォーマを備えた視覚統合表現交換アーキテクチャ)を提案する。
AUREXA-SEは、U-Netベースの1D畳み込みエンコーダを用いて、生音声波形と視覚的手がかりを併用する。
アーキテクチャの中心は、モダリティ間の深いコンテキスト融合を促進する、新しい双方向のクロスアテンションメカニズムである。
論文 参考訳(メタデータ) (2025-10-06T19:05:35Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。