論文の概要: Iterative autoregression: a novel trick to improve your low-latency
speech enhancement model
- arxiv url: http://arxiv.org/abs/2211.01751v3
- Date: Tue, 27 Jun 2023 13:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 17:56:43.697831
- Title: Iterative autoregression: a novel trick to improve your low-latency
speech enhancement model
- Title(参考訳): 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック
- Authors: Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek
Alanov
- Abstract要約: ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。
本稿では,自己回帰型低遅延音声強調モデルの訓練方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Streaming models are an essential component of real-time speech enhancement
tools. The streaming regime constrains speech enhancement models to use only a
tiny context of future information. As a result, the low-latency streaming
setup is generally considered a challenging task and has a significant negative
impact on the model's quality. However, the sequential nature of streaming
generation offers a natural possibility for autoregression, that is, utilizing
previous predictions while making current ones. The conventional method for
training autoregressive models is teacher forcing, but its primary drawback
lies in the training-inference mismatch that can lead to a substantial
degradation in quality. In this study, we propose a straightforward yet
effective alternative technique for training autoregressive low-latency speech
enhancement models. We demonstrate that the proposed approach leads to stable
improvement across diverse architectures and training scenarios.
- Abstract(参考訳): ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。
ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。
その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。
しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。
従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。
本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。
提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。