論文の概要: Performance and Complexity Trade-off Optimization of Speech Models During Training
- arxiv url: http://arxiv.org/abs/2601.13704v2
- Date: Wed, 21 Jan 2026 09:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.181085
- Title: Performance and Complexity Trade-off Optimization of Speech Models During Training
- Title(参考訳): 訓練中の音声モデルの性能と複雑さのトレードオフ最適化
- Authors: Esteban Gómez, Tom Bäckström,
- Abstract要約: 音声機械学習では、ニューラルネットワークモデルは通常、固定された層の大きさと構造を持つアーキテクチャを選択することで設計される。
全体的なアーキテクチャは通常、タスクの事前の知識によってガイドされるが、個々のレイヤのサイズは、しばしば選択される。
プルーニング法とは異なり,本手法では,対象の性能・複雑さのトレードオフに対して,モデルサイズを動的に最適化する。
- 参考スコア(独自算出の注目度): 5.335528687192602
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In speech machine learning, neural network models are typically designed by choosing an architecture with fixed layer sizes and structure. These models are then trained to maximize performance on metrics aligned with the task's objective. While the overall architecture is usually guided by prior knowledge of the task, the sizes of individual layers are often chosen heuristically. However, this approach does not guarantee an optimal trade-off between performance and computational complexity; consequently, post hoc methods such as weight quantization or model pruning are typically employed to reduce computational cost. This occurs because stochastic gradient descent (SGD) methods can only optimize differentiable functions, while factors influencing computational complexity, such as layer sizes and floating-point operations per second (FLOP/s), are non-differentiable and require modifying the model structure during training. We propose a reparameterization technique based on feature noise injection that enables joint optimization of performance and computational complexity during training using SGD-based methods. Unlike traditional pruning methods, our approach allows the model size to be dynamically optimized for a target performance-complexity trade-off, without relying on heuristic criteria to select which weights or structures to remove. We demonstrate the effectiveness of our method through three case studies, including a synthetic example and two practical real-world applications: voice activity detection and audio anti-spoofing. The code related to our work is publicly available to encourage further research.
- Abstract(参考訳): 音声機械学習では、ニューラルネットワークモデルは通常、固定された層の大きさと構造を持つアーキテクチャを選択することで設計される。
これらのモデルは、タスクの目的に沿ったメトリクスのパフォーマンスを最大化するために訓練される。
全体的なアーキテクチャは通常、タスクの事前知識によってガイドされるが、個々のレイヤのサイズはヒューリスティックに選択されることが多い。
しかし、このアプローチは性能と計算複雑性の最適なトレードオフを保証していないため、一般に計算コストを削減するために重量量子化やモデルプルーニングのようなポストホック法が用いられる。
これは、確率勾配勾配(SGD)法が微分可能な関数のみを最適化できるのに対し、層のサイズや1秒あたりの浮動小数点演算(FLOP/s)などの計算複雑性に影響を与える要因は微分不可能であり、訓練中にモデル構造を変更する必要があるためである。
そこで本稿では,SGD法を用いた学習における性能と計算複雑性の同時最適化を可能にする特徴雑音注入に基づくパラメータ化手法を提案する。
従来のプルーニング法とは異なり,本手法では,重みや取り外し構造をヒューリスティックな基準に頼らず,目標性能・複雑度トレードオフに対して動的にモデルサイズを最適化する。
本手法の有効性を,合成例と実世界の2つの実践的応用である音声活動検出と音声アンチスプーフィングの3つのケーススタディを通じて実証する。
私たちの研究に関連するコードは、さらなる研究を促進するために公開されています。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Self-Composing Neural Operators with Depth and Accuracy Scaling via Adaptive Train-and-Unroll Approach [12.718377513965912]
本稿では,自己合成によるニューラル演算子の効率性と精度を高める新しい枠組みを提案する。
数値偏微分方程式 (PDE) を解くための反復的手法に着想を得て, 1つのニューラル演算子ブロックを繰り返し適用して, 特定のニューラル演算子を設計する。
適応型トレイン・アンド・アンロールアプローチを導入し、トレーニング中にニューラル演算子の深さが徐々に増加する。
論文 参考訳(メタデータ) (2025-08-28T10:53:00Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - A Generic Performance Model for Deep Learning in a Distributed
Environment [0.7829352305480285]
本稿では,アプリケーション実行時間の汎用表現を用いた分散環境におけるアプリケーションの汎用性能モデルを提案する。
提案手法を3つのディープラーニングフレームワーク(MXnetとPytorch)で評価した。
論文 参考訳(メタデータ) (2023-05-19T13:30:34Z) - Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates
for a Diffusion Equation [0.0]
本研究では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。
その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2023-02-07T22:53:19Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - An Adaptive and Scalable ANN-based Model-Order-Reduction Method for
Large-Scale TO Designs [22.35243726859667]
トポロジ最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。
ディープラーニングベースのモデルは、プロセスの高速化のために開発されている。
MapNetは、粗いスケールから細かいスケールまでの関心領域をマッピングするニューラルネットワークである。
論文 参考訳(メタデータ) (2022-03-20T10:12:24Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。