論文の概要: Scheduled DropHead: A Regularization Method for Transformer Models
- arxiv url: http://arxiv.org/abs/2004.13342v2
- Date: Sun, 1 Nov 2020 15:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:06:17.622803
- Title: Scheduled DropHead: A Regularization Method for Transformer Models
- Title(参考訳): スケジューリングDropHead:変圧器モデルの正規化手法
- Authors: Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei, Ming Zhou
- Abstract要約: DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。
トレーニング中にすべての注意を落とします。
マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
- 参考スコア(独自算出の注目度): 111.18614166615968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce DropHead, a structured dropout method
specifically designed for regularizing the multi-head attention mechanism,
which is a key component of transformer, a state-of-the-art model for various
NLP tasks. In contrast to the conventional dropout mechanisms which randomly
drop units or connections, the proposed DropHead is a structured dropout
method. It drops entire attention-heads during training and It prevents the
multi-head attention model from being dominated by a small portion of attention
heads while also reduces the risk of overfitting the training data, thus making
use of the multi-head attention mechanism more efficiently. Motivated by recent
studies about the learning dynamic of the multi-head attention mechanism, we
propose a specific dropout rate schedule to adaptively adjust the dropout rate
of DropHead and achieve better regularization effect. Experimental results on
both machine translation and text classification benchmark datasets demonstrate
the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,様々なnlpタスクのための最先端モデルであるtransformerのキーコンポーネントであるマルチヘッドアテンション機構を定式化する,構造化ドロップアウト方式であるdropheadを提案する。
ユニットや接続をランダムにドロップする従来のドロップアウト機構とは対照的に,提案手法は構造化ドロップアウト方式である。
トレーニング中に注意ヘッド全体をドロップし、多頭注意モデルが少数の注意ヘッドに支配されるのを防ぐとともに、トレーニングデータの過剰フィットのリスクを低減し、多頭注意機構をより効率的に利用する。
マルチヘッドアテンション機構の学習力学に関する最近の研究により、DropHeadのドロップアウト率を適応的に調整し、より優れた正規化効果を達成するための特定のドロップアウト率スケジュールを提案する。
機械翻訳とテキスト分類ベンチマークによる実験結果から,提案手法の有効性が示された。
関連論文リスト
- Mitigating Biases with Diverse Ensembles and Diffusion Models [99.6100669122048]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Stabilizing and Improving Federated Learning with Non-IID Data and
Client Dropout [15.569507252445144]
ラベル分布スキューによるデータヘテロジェニーティは、フェデレート学習におけるモデル性能を制限する重要な障害であることが示されている。
クロスエントロピー損失を計算するための事前校正ソフトマックス関数を導入することで、シンプルで効果的なフレームワークを提案する。
非IIDデータとクライアントドロップアウトの存在下で、既存のベースラインよりも優れたモデル性能を示す。
論文 参考訳(メタデータ) (2023-03-11T05:17:59Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - AD-DROP: Attribution-Driven Dropout for Robust Language Model
Fine-Tuning [24.028662731799127]
帰属スコアの低い注意点の低下はトレーニングを加速させ、過度な適合のリスクを増大させることが判明した。
微調整とAD-DROPを交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
論文 参考訳(メタデータ) (2022-10-12T02:54:41Z) - DropKey [9.846606347586906]
視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。
我々は,注目行列計算よりも先にドロップアウト操作を移動させ,キーをドロップアウト単位として設定することを提案する。
提案したスケジュールは,低レベルの機能や高レベルのセマンティクスに欠けるオーバーフィッティングを回避することができる。
論文 参考訳(メタデータ) (2022-08-04T13:24:04Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - PLACE dropout: A Progressive Layer-wise and Channel-wise Dropout for
Domain Generalization [29.824723021053565]
ドメイン一般化(DG)は、複数の観測されたソースドメインからジェネリックモデルを学ぶことを目的としている。
DGの最大の課題は、ソースとターゲットドメイン間のドメインギャップのため、このモデルが必然的に過度にオーバーフィットする問題に直面していることだ。
そこで我々は,DGのための新しいレイヤワイド・チャネルワイド・ドロップアウトを開発し,各レイヤをランダムに選択し,そのチャネルをランダムに選択してドロップアウトを行う。
論文 参考訳(メタデータ) (2021-12-07T13:23:52Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。