論文の概要: Dynamic Acoustic Model Architecture Optimization in Training for ASR
- arxiv url: http://arxiv.org/abs/2506.13180v2
- Date: Wed, 18 Jun 2025 08:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.364674
- Title: Dynamic Acoustic Model Architecture Optimization in Training for ASR
- Title(参考訳): ASR訓練における動的音響モデルアーキテクチャの最適化
- Authors: Jingjing Xu, Zijian Yang, Albert Zeyer, Eugen Beck, Ralf Schlueter, Hermann Ney,
- Abstract要約: DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。
CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
- 参考スコア(独自算出の注目度): 51.21112094223223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Architecture design is inherently complex. Existing approaches rely on either handcrafted rules, which demand extensive empirical expertise, or automated methods like neural architecture search, which are computationally intensive. In this paper, we introduce DMAO, an architecture optimization framework that employs a grow-and-drop strategy to automatically reallocate parameters during training. This reallocation shifts resources from less-utilized areas to those parts of the model where they are most beneficial. Notably, DMAO only introduces negligible training overhead at a given model complexity. We evaluate DMAO through experiments with CTC on LibriSpeech, TED-LIUM-v2 and Switchboard datasets. The results show that, using the same amount of training resources, our proposed DMAO consistently improves WER by up to 6% relatively across various architectures, model sizes, and datasets. Furthermore, we analyze the pattern of parameter redistribution and uncover insightful findings.
- Abstract(参考訳): アーキテクチャ設計は本質的に複雑です。
既存のアプローチは、広範な経験的な専門知識を必要とする手作りのルールか、あるいは計算集約的なニューラルネットワーク検索のような自動化手法に依存している。
本稿では,学習中のパラメータを自動的に再配置するGrow-and-drop戦略を用いたアーキテクチャ最適化フレームワークDMAOを紹介する。
この再配置は、リソースを未使用の領域からモデルの一部にシフトさせ、それらが最も有益である。
特に、DMAOは、与えられたモデルの複雑さに対して、無視可能なトレーニングオーバーヘッドを導入するだけである。
我々は,LibriSpeech,TED-Lium-v2,Switchboardのデータセットを用いたCTCによるDMAOの評価を行った。
その結果、同じ量のトレーニングリソースを使用して、提案したDMAOは、さまざまなアーキテクチャ、モデルサイズ、データセットに対して、WERを最大6%改善します。
さらに,パラメータ再分配のパターンを分析し,洞察に富んだ知見を明らかにする。
関連論文リスト
- ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か?
具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。
我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文 参考訳(メタデータ) (2025-02-06T17:32:49Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Grassroots Operator Search for Model Edge Adaptation [2.1756721838833797]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)は、効率的なディープラーニングアーキテクチャの設計にますます利用されている。
効率的な演算子置換を探索するために,Grassroots Operator Search (GOS) 手法を提案する。
提案手法は,2つのエッジデバイスにおいて,精度を保ちながら,最小2.2倍の高速化を実現した。
論文 参考訳(メタデータ) (2023-09-20T12:15:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。