論文の概要: Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space
- arxiv url: http://arxiv.org/abs/2606.01909v1
- Date: Mon, 01 Jun 2026 08:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.627862
- Title: Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space
- Title(参考訳): Echo: 共有潜在空間における話者ダイアリゼーションと音声認識のための統合埋め込み予測アーキテクチャ
- Authors: Louis Mouchon,
- Abstract要約: 私たちは、単一のViTエンコーダを中心に構築された概念実証オーディオシステムであるEchoを紹介します。
エンコーダはJEPAの目的で事前訓練され、スピーカーアイデンティティ、音声コンテンツ、動的ソースルーティングのステージによって特殊化される。
設計段階を段階別に文書化し、最終段階を報告し、まだPoCに束縛されているVQボトルネックを通して、エンドツーエンドのASRの構造壁を識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Echo, a proof-of-concept audio system built around a single 25 M-parameter ViT encoder. The encoder is pretrained with a JEPA objective and then specialised by stages to carry speaker identity, phonetic content, and dynamic source routing in the same 512-dimensional latent space, with no per-task fine-tuning at deployment. Light heads handle diarization (ArcFace + VBx) and dynamic source separation (null-target K-set prediction). On synthetic VoxCeleb2 mixtures with unknown K, the canonical stack reaches 15.00% blind DER, 97.80% PIT separation accuracy with +9.52 dB latent SI-SDR, and a +53.50-point speaker/content factorisation gap on a held-out k-NN probe. The point of Echo is not a new SOTA on any single task but the joint coexistence of three tasks on one encoder at this footprint. We document the design stage by stage, report the dead-ends, and identify the structural wall on end-to-end ASR through the VQ bottleneck that still bounds the PoC.
- Abstract(参考訳): 今回紹介するEchoは、25MのVTエンコーダを中心に構築された概念実証オーディオシステムだ。
エンコーダはJEPAの目標で事前訓練され、その後、同じ512次元のラテント空間で話者識別、音声コンテンツ、動的ソースルーティングを運ぶためのステージによって特殊化される。
光ヘッドはダイアリゼーション(ArcFace + VBx)と動的ソース分離(Null-target K-set prediction)を扱う。
未知のKと合成されたVoxCeleb2では、標準スタックは15.00%のブラインドダー、97.80%のPIT分離精度が+9.52dB遅延型SI-SDR、+53.50ポイントのスピーカー/コンテント分解ギャップが保持されたk-NNプローブで達成された。
Echoのポイントは、単一のタスクにおける新しいSOTAではなく、このフットプリントにおける1つのエンコーダ上の3つのタスクの共存である。
設計段階を段階別に文書化し、最終段階を報告し、まだPoCに縛られているVQボトルネックを通して、エンドツーエンドのASRの構造壁を識別する。
関連論文リスト
- Falcon Perception [9.683117886176772]
Falcon Perception(ファルコン・パーセプション)は、画像パッチとテキストトークンを第1層から共有パラメータ空間で処理する高密度トランスフォーマーである。
Falcon Perceptionは軽量なトークンインターフェースを保持し、特別なヘッドで連続的な空間出力をデコードする。
単一のスケーラブルなバックボーンを維持し、複雑性をデータやトレーニング信号にシフトするのです。
論文 参考訳(メタデータ) (2026-03-28T18:23:20Z) - A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning [0.0]
本稿では,HEAR(Human-inspireed Efficient Audio Representation)を提案する。
HEARは処理パイプラインを,ローカル特徴抽出のためのアコースティックモデルと,グローバルセマンティック統合のためのタスクモデルという,2つの専用モジュールに分割する。
実験の結果、HEARは推定に15Mパラメータと9.47GFLOPしか必要とせず、従来の基礎モデルの計算コストのごく一部で動作していることがわかった。
論文 参考訳(メタデータ) (2026-03-27T06:09:03Z) - JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention [47.304088800992474]
本稿では,JEPA(Joint-Embedding Predictive Architecture)とDAAM(Dedentity Adaptive Attention Mechanism)を組み合わせた2段階の自己組織化フレームワークを提案する。
Stage1はJEPAとDAAMを使用して、波形再構成から完全に切り離された潜在空間におけるマスク付き予測を通じてセマンティックオーディオ機能を学ぶ。
Stage2は、これらの表現をFinite Scalar Quantization (FSQ)とMix-radix Packingスキームを用いた効率的なトークン化に利用し、次いでHiFi-GANデコーダを用いた高忠実な波形再構成を行う。
論文 参考訳(メタデータ) (2025-12-08T05:01:51Z) - Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:14:41Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - A Unified Query-based Paradigm for Point Cloud Understanding [116.30071021894317]
本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。
入力は、任意の特徴抽出アーキテクチャで埋め込み段階でエンコードされる。
これは、クエリステージに中間表現、すなわちQ表現を導入して、埋め込みステージとタスクヘッドの間のブリッジとして機能させることによって達成される。
論文 参考訳(メタデータ) (2022-03-02T17:17:03Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。