Fugu-MT 論文翻訳(概要): Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

論文の概要: Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

arxiv url: http://arxiv.org/abs/2211.01751v4
Date: Tue, 5 Dec 2023 11:36:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 20:43:33.557889
Title: Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
Title（参考訳）: 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック
Authors: Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov
Abstract要約: ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。本稿では,自己回帰型低遅延音声強調モデルの訓練方法を提案する。
参考スコア（独自算出の注目度）: 2.2999148299770047
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model's quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios.
Abstract（参考訳）: ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。

関連論文リスト

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文参考訳（メタデータ） (2025-12-24T07:07:08Z)
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-12-17T18:53:29Z)
Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文参考訳（メタデータ） (2025-05-12T08:32:39Z)
Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation [42.63061599979695]
音声分離(SS)は、複数話者の音声混在を単一話者の音声ストリームに切り離そうとする。過去と現在の情報のみに依存する因果分離モデルは、リアルタイムストリーミングに有望なソリューションを提供する。本稿では,将来の情報を因果モデルに暗黙的に組み込むことで,トレーニングと実行時の推論のミスマッチを軽減するための小説を紹介する。
論文参考訳（メタデータ） (2025-04-03T06:18:30Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳（メタデータ） (2024-12-09T21:36:10Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文参考訳（メタデータ） (2024-03-08T10:19:00Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-09-22T07:27:32Z)
Shattering the Agent-Environment Interface for Fine-Tuning Inclusive Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文参考訳（メタデータ） (2023-05-19T06:21:15Z)
Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文参考訳（メタデータ） (2021-12-10T07:24:21Z)
Learning Rich Nearest Neighbor Representations from Self-supervised Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文参考訳（メタデータ） (2021-10-19T22:24:57Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。