論文の概要: Adaptive Dropout for Pruning Conformers
- arxiv url: http://arxiv.org/abs/2412.04836v1
- Date: Fri, 06 Dec 2024 08:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:55:43.064011
- Title: Adaptive Dropout for Pruning Conformers
- Title(参考訳): 排水コンバータの適応ドロップアウト
- Authors: Yotaro Kubo, Xingyu Cai, Michiel Bacchiani,
- Abstract要約: 単位の保持確率は、バックプロパゲーションとGumbel-Softmax技術を用いて推定する。
提案手法は,LibriSpeechタスク上で音声認識実験を行うことで評価する。
- 参考スコア(独自算出の注目度): 12.577993239385437
- License:
- Abstract: This paper proposes a method to effectively perform joint training-and-pruning based on adaptive dropout layers with unit-wise retention probabilities. The proposed method is based on the estimation of a unit-wise retention probability in a dropout layer. A unit that is estimated to have a small retention probability can be considered to be prunable. The retention probability of the unit is estimated using back-propagation and the Gumbel-Softmax technique. This pruning method is applied at several application points in Conformers such that the effective number of parameters can be significantly reduced. Specifically, adaptive dropout layers are introduced in three locations in each Conformer block: (a) the hidden layer of the feed-forward-net component, (b) the query vectors and the value vectors of the self-attention component, and (c) the input vectors of the LConv component. The proposed method is evaluated by conducting a speech recognition experiment on the LibriSpeech task. It was shown that this approach could simultaneously achieve a parameter reduction and accuracy improvement. The word error rates improved by approx 1% while reducing the number of parameters by 54%.
- Abstract(参考訳): 本稿では,適応型ドロップアウト層を単位的保持確率で適用し,協調的なトレーニング・アンド・プルーニングを効果的に行う手法を提案する。
提案手法は,ドロップアウト層における単位値保持確率を推定する。
保持確率が小さいと推定される単位は、プルナブルとみなすことができる。
ユニットの保持確率はバックプロパゲーションとGumbel-Softmax技術を用いて推定される。
このプルーニング法はコンフォーマーのいくつかのアプリケーションポイントに適用され、有効数のパラメータを著しく削減することができる。
具体的には、各コンフォーマーブロックの3箇所にアダプティブ・ドロップアウト・レイヤを導入します。
a) フィードフォワードネットコンポーネントの隠されたレイヤ。
b) 自己注意成分の問合せベクトル及び値ベクトル
(c)LConvコンポーネントの入力ベクトル。
提案手法は,LibriSpeechタスク上で音声認識実験を行うことで評価する。
その結果,パラメータの削減と精度の向上が同時に達成できることが示唆された。
単語エラー率は1%向上し、パラメータの数を54%削減した。
関連論文リスト
- Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target [56.99669411766284]
自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
論文 参考訳(メタデータ) (2022-11-29T18:41:20Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Selective Probabilistic Classifier Based on Hypothesis Testing [14.695979686066066]
分類器の閉世界仮定の違反に対処するためのシンプルで効果的な方法を提案する。
提案手法は確率的ネットワークを用いた仮説テストに基づく拒絶オプションである。
提案手法は, より広い操作範囲を達成でき, 代替手段よりも低い偽陽性比をカバーできることが示されている。
論文 参考訳(メタデータ) (2021-05-09T08:55:56Z) - Root-finding Approaches for Computing Conformal Prediction Set [18.405645120971496]
共形予測は、以前の同一分布および交換可能な観測に基づいて、特徴ベクトルの未観測応答に対する信頼領域を構築する。
我々は,共形予測集合が古典的ルートフィンディングソフトウェアによって効率的に近似できる区間であるという事実を活用する。
論文 参考訳(メタデータ) (2021-04-14T06:41:12Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Backpropagation-Free Learning Method for Correlated Fuzzy Neural
Networks [2.1320960069210475]
本稿では,所望の前提部品の出力を推定し,段階的に学習する手法を提案する。
前提部品のパラメータを学習するために出力エラーをバックプロパゲートする必要はない。
実世界の時系列予測と回帰問題に適用できる。
論文 参考訳(メタデータ) (2020-11-25T20:56:05Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。