論文の概要: DropDim: A Regularization Method for Transformer Networks
- arxiv url: http://arxiv.org/abs/2304.10321v1
- Date: Thu, 20 Apr 2023 13:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:04:17.113410
- Title: DropDim: A Regularization Method for Transformer Networks
- Title(参考訳): dropdim:トランスフォーマーネットワークのための正規化手法
- Authors: Hao Zhang, Dan Qu, Keji Shao, and Xukui Yang
- Abstract要約: 本研究では,自己認識機構を正規化するための構造的ドロップアウト手法であるDropDimを紹介する。
ニューロンをランダムにドロップする一般的なドロップアウト法とは対照的に、DropDimは埋め込み次元の一部をドロップアウトする。
MUST-C英語-ドイツ語データセット上で実行される幅広いタスクの実験により、DropDimはモデル性能を効果的に改善できることが示された。
- 参考スコア(独自算出の注目度): 4.728210073787062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduceDropDim, a structured dropout method designed for regularizing
the self-attention mechanism, which is a key component of the transformer. In
contrast to the general dropout method, which randomly drops neurons, DropDim
drops part of the embedding dimensions. In this way, the semantic information
can be completely discarded. Thus, the excessive coadapting between different
embedding dimensions can be broken, and the self-attention is forced to encode
meaningful featureswith a certain number of embedding dimensions erased.
Experiments on a wide range of tasks executed on the MUST-C English-Germany
dataset show that DropDim can effectively improve model performance, reduce
over-fitting, and show complementary effects with other regularization methods.
When combined with label smoothing, the WER can be reduced from 19.1% to 15.1%
on the ASR task, and the BLEU value can be increased from26.90 to 28.38 on the
MT task. On the ST task, the model can reach a BLEU score of 22.99, an increase
by 1.86 BLEU points compared to the strong baseline.
- Abstract(参考訳): 本稿では,トランスフォーマーのキーコンポーネントであるセルフアテンション機構を定式化する構造的ドロップアウト方式dropdimを提案する。
ニューロンをランダムにドロップする一般的なドロップアウト法とは対照的に、DropDimは埋め込み次元の一部をドロップアウトする。
このように、意味情報を完全に破棄することができる。
このように、異なる埋め込み次元間の過剰な共役は破壊され、自己注意は特定の埋め込み次元を消去した意味のある特徴を符号化せざるを得ない。
MUST-C英語-ドイツ語データセット上で実行される幅広いタスクの実験により、DropDimはモデル性能を効果的に改善し、過剰適合を低減し、他の正規化手法と相補的な効果を示す。
ラベルの平滑化と組み合わせると、WERはASRタスクで19.1%から15.1%に減少し、BLEU値はMTタスクで26.90から28.38に増加する。
st タスクでは、モデルは bleu スコア 22.99 に達し、強力なベースラインと比較して 1.86 bleu ポイントが増加する。
関連論文リスト
- De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文 参考訳(メタデータ) (2021-04-11T07:43:19Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。