論文の概要: Scheduled DropHead: A Regularization Method for Transformer Models
- arxiv url: http://arxiv.org/abs/2004.13342v2
- Date: Sun, 1 Nov 2020 15:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:06:17.622803
- Title: Scheduled DropHead: A Regularization Method for Transformer Models
- Title(参考訳): スケジューリングDropHead:変圧器モデルの正規化手法
- Authors: Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei, Ming Zhou
- Abstract要約: DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。
トレーニング中にすべての注意を落とします。
マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
- 参考スコア(独自算出の注目度): 111.18614166615968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce DropHead, a structured dropout method
specifically designed for regularizing the multi-head attention mechanism,
which is a key component of transformer, a state-of-the-art model for various
NLP tasks. In contrast to the conventional dropout mechanisms which randomly
drop units or connections, the proposed DropHead is a structured dropout
method. It drops entire attention-heads during training and It prevents the
multi-head attention model from being dominated by a small portion of attention
heads while also reduces the risk of overfitting the training data, thus making
use of the multi-head attention mechanism more efficiently. Motivated by recent
studies about the learning dynamic of the multi-head attention mechanism, we
propose a specific dropout rate schedule to adaptively adjust the dropout rate
of DropHead and achieve better regularization effect. Experimental results on
both machine translation and text classification benchmark datasets demonstrate
the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,様々なnlpタスクのための最先端モデルであるtransformerのキーコンポーネントであるマルチヘッドアテンション機構を定式化する,構造化ドロップアウト方式であるdropheadを提案する。
ユニットや接続をランダムにドロップする従来のドロップアウト機構とは対照的に,提案手法は構造化ドロップアウト方式である。
トレーニング中に注意ヘッド全体をドロップし、多頭注意モデルが少数の注意ヘッドに支配されるのを防ぐとともに、トレーニングデータの過剰フィットのリスクを低減し、多頭注意機構をより効率的に利用する。
マルチヘッドアテンション機構の学習力学に関する最近の研究により、DropHeadのドロップアウト率を適応的に調整し、より優れた正規化効果を達成するための特定のドロップアウト率スケジュールを提案する。
機械翻訳とテキスト分類ベンチマークによる実験結果から,提案手法の有効性が示された。
関連論文リスト
- Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - PLACE dropout: A Progressive Layer-wise and Channel-wise Dropout for
Domain Generalization [29.824723021053565]
ドメイン一般化(DG)は、複数の観測されたソースドメインからジェネリックモデルを学ぶことを目的としている。
DGの最大の課題は、ソースとターゲットドメイン間のドメインギャップのため、このモデルが必然的に過度にオーバーフィットする問題に直面していることだ。
そこで我々は,DGのための新しいレイヤワイド・チャネルワイド・ドロップアウトを開発し,各レイヤをランダムに選択し,そのチャネルをランダムに選択してドロップアウトを行う。
論文 参考訳(メタデータ) (2021-12-07T13:23:52Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。