論文の概要: Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation
- arxiv url: http://arxiv.org/abs/2504.02302v1
- Date: Thu, 03 Apr 2025 06:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 19:36:02.326756
- Title: Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation
- Title(参考訳): 音声分離のための予測符号付き因果自己教師付き事前訓練フロントエンド
- Authors: Wupeng Wang, Zexu Pan, Xinke Li, Shuai Wang, Haizhou Li,
- Abstract要約: 音声分離(SS)は、複数話者の音声混在を単一話者の音声ストリームに切り離そうとする。
過去と現在の情報のみに依存する因果分離モデルは、リアルタイムストリーミングに有望なソリューションを提供する。
本稿では,将来の情報を因果モデルに暗黙的に組み込むことで,トレーニングと実行時の推論のミスマッチを軽減するための小説を紹介する。
- 参考スコア(独自算出の注目度): 42.63061599979695
- License:
- Abstract: Speech separation (SS) seeks to disentangle a multi-talker speech mixture into single-talker speech streams. Although SS can be generally achieved using offline methods, such a processing paradigm is not suitable for real-time streaming applications. Causal separation models, which rely only on past and present information, offer a promising solution for real-time streaming. However, these models typically suffer from notable performance degradation due to the absence of future context. In this paper, we introduce a novel frontend that is designed to mitigate the mismatch between training and run-time inference by implicitly incorporating future information into causal models through predictive patterns. The pretrained frontend employs a transformer decoder network with a causal convolutional encoder as the backbone and is pretrained in a self-supervised manner with two innovative pretext tasks: autoregressive hybrid prediction and contextual knowledge distillation. These tasks enable the model to capture predictive patterns directly from mixtures in a self-supervised manner. The pretrained frontend subsequently serves as a feature extractor to generate high-quality predictive patterns. Comprehensive evaluations on synthetic and real-world datasets validated the effectiveness of the proposed pretrained frontend.
- Abstract(参考訳): 音声分離(SS)は、複数話者の音声混在を単一話者の音声ストリームに切り離そうとする。
SSはオフラインの手法で一般的に実現できるが、そのような処理パラダイムはリアルタイムストリーミングアプリケーションには適さない。
過去と現在の情報のみに依存する因果分離モデルは、リアルタイムストリーミングに有望なソリューションを提供する。
しかし、これらのモデルは通常、将来のコンテキストがないため、顕著なパフォーマンス劣化に悩まされる。
本稿では,学習と実行時の推論のミスマッチを軽減するために,予測パターンを通じて将来の情報を因果モデルに暗黙的に組み込む新しいフロントエンドを提案する。
事前訓練されたフロントエンドは、トランスフォーマーデコーダネットワークと因果畳み込みエンコーダをバックボーンとして使用し、自己教師型の2つのプリテキストタスク(自己回帰ハイブリッド予測と文脈知識蒸留)で事前訓練される。
これらのタスクは、モデルが自己教師された方法で混合物から直接予測パターンをキャプチャすることを可能にする。
事前訓練されたフロントエンドは、高品質な予測パターンを生成する特徴抽出器として機能する。
合成および実世界のデータセットに関する総合的な評価は、提案した事前訓練されたフロントエンドの有効性を検証した。
関連論文リスト
- Proactive Model Adaptation Against Concept Drift for Online Time Series Forecasting [23.50574069148193]
本稿では,オンライン時系列予測のための新しいプロアクティブモデル適応フレームワークを提案する。
Proceedは最初に、最近使用したトレーニングサンプルと現在のテストサンプルの間のコンセプトドリフトを推定する。
次に、推定ドリフトをパラメータ調整に効率的に変換するために適応生成器を使用する。
論文 参考訳(メタデータ) (2024-12-11T14:57:10Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Reinforced Decoder: Towards Training Recurrent Neural Networks for Time Series Forecasting [1.5213268724320657]
繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルは、マルチステップの時系列予測に広く応用されている。
これらのモデルは通常、デコーダ入力として以前の予測または実際の観測値を使用して訓練されたデコーダを含む。
本研究は、代替デコーダ入力を生成する補助モデルを導入する強化デコーダと呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T00:24:29Z) - Fine-grained Forecasting Models Via Gaussian Process Blurring Effect [6.472434306724611]
時系列予測は、複雑な時間的依存関係と動的な時間的依存関係が存在するため、困難なタスクである。
より多くのトレーニングデータを使用することで精度が向上するが、このソースは制限されることが多い。
我々は、エンドツーエンドの予測・デノゲーションパラダイムを提唱し、画像生成のためのDenoisingアプローチを成功させています。
論文 参考訳(メタデータ) (2023-12-21T20:25:16Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction
Transformer [0.9786690381850356]
PRediction Transformer (PReTR) と呼ばれるモデルを導入し、時間分解型アテンションモジュールを用いてマルチエージェントシーンから特徴を抽出する。
これは、経験的により良い結果を持つ以前の研究されたモデルよりも計算上の必要性が低いことを示している。
我々は,学習対象クエリの集合を並列デコードするために,エンコーダ・デコーダ・トランスフォーマネットワークを利用する。
論文 参考訳(メタデータ) (2022-03-17T12:52:23Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。