論文の概要: On Batching Variable Size Inputs for Training End-to-End Speech
Enhancement Systems
- arxiv url: http://arxiv.org/abs/2301.10587v1
- Date: Wed, 25 Jan 2023 13:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:11:27.077674
- Title: On Batching Variable Size Inputs for Training End-to-End Speech
Enhancement Systems
- Title(参考訳): エンドツーエンド音声強調システムのバッチサイズ入力について
- Authors: Philippe Gonzalez, Tommy Sonne Alstr{\o}m, Tobias May
- Abstract要約: 本稿では,異なる戦略とバッチサイズがConvTasNet音声強調性能に及ぼす影響について検討する。
トレーニング中のバッチサイズが小さいと、すべての戦略において両方の条件でパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of neural network-based speech enhancement systems is
primarily influenced by the model architecture, whereas training times and
computational resource utilization are primarily affected by training
parameters such as the batch size. Since noisy and reverberant speech mixtures
can have different duration, a batching strategy is required to handle variable
size inputs during training, in particular for state-of-the-art end-to-end
systems. Such strategies usually strive a compromise between zero-padding and
data randomization, and can be combined with a dynamic batch size for a more
consistent amount of data in each batch. However, the effect of these practices
on resource utilization and more importantly network performance is not well
documented. This paper is an empirical study of the effect of different
batching strategies and batch sizes on the training statistics and speech
enhancement performance of a Conv-TasNet, evaluated in both matched and
mismatched conditions. We find that using a small batch size during training
improves performance in both conditions for all batching strategies. Moreover,
using sorted or bucket batching with a dynamic batch size allows for reduced
training time and GPU memory usage while achieving similar performance compared
to random batching with a fixed batch size.
- Abstract(参考訳): ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響が主であるが、トレーニング時間や計算資源の利用は主にバッチサイズなどのトレーニングパラメータに影響されている。
雑音と残響音声の混合時間は異なるため、特に最先端のエンドツーエンドシステムでは、訓練中に可変サイズ入力を処理するバッチ処理戦略が必要となる。
このような戦略は通常、ゼロパディングとデータランダム化の妥協を試み、各バッチでより一貫した量のデータを動的バッチサイズと組み合わせることができる。
しかしながら、これらのプラクティスがリソースの利用やネットワークパフォーマンスに与える影響は、十分に文書化されていない。
本稿では,一致条件と一致条件の両方で評価されたConv-TasNetの訓練統計と音声強調性能に及ぼすバッチ処理戦略とバッチサイズの影響を実証的に検討する。
トレーニング中に小さなバッチサイズを使用することで、バッチ戦略全体の両方の条件でパフォーマンスが向上することが分かりました。
さらに、動的バッチサイズでソートまたはバケットバッチを使用することで、バッチサイズが固定されたランダムバッチと同等の性能を達成しながら、トレーニング時間とgpuメモリ使用量を削減できる。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - The Effect of Batch Size on Contrastive Self-Supervised Speech
Representation Learning [8.93449755281201]
一定量のイテレーションにおいて、より大きなバッチサイズが事前訓練されたモデルを改善することを示します。
次に、事前学習モデルの品質は、主に訓練中に見られる音声データ量に依存することを示す。
論文 参考訳(メタデータ) (2024-02-21T11:35:19Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Fine-grained Multi-Modal Self-Supervised Learning [4.850800439026724]
ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。
このような事前学習には、未処理のデータに発生するノイズのために、大きなバッチサイズと大量の計算資源が必要である。
そこで本稿では, 埋め込みの類似性を高精度に計算する, マルチモーダルな自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:17:45Z) - Improving the performance of bagging ensembles for data streams through
mini-batching [9.418151228755834]
機械学習アプリケーションは、データが連続データストリームの形式で収集される動的な環境に対処する必要がある。
ストリーム処理アルゴリズムには、計算資源とデータ進化への適応性に関する追加の要件がある。
本稿では,マルチコア環境におけるストリームマイニングのための複数のアンサンブルアルゴリズムのメモリアクセス局所性と性能を向上するミニバッチ方式を提案する。
論文 参考訳(メタデータ) (2021-12-18T03:44:07Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。