論文の概要: Scheduled DropHead: A Regularization Method for Transformer Models
- arxiv url: http://arxiv.org/abs/2004.13342v2
- Date: Sun, 1 Nov 2020 15:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-08 22:06:17.622803
- Title: Scheduled DropHead: A Regularization Method for Transformer Models
- Title(参考訳): スケジューリングDropHead:変圧器モデルの正規化手法
- Authors: Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei, Ming Zhou
- Abstract要約: DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。
トレーニング中にすべての注意を落とします。
マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
- 参考スコア(独自算出の注目度): 111.18614166615968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce DropHead, a structured dropout method
specifically designed for regularizing the multi-head attention mechanism,
which is a key component of transformer, a state-of-the-art model for various
NLP tasks. In contrast to the conventional dropout mechanisms which randomly
drop units or connections, the proposed DropHead is a structured dropout
method. It drops entire attention-heads during training and It prevents the
multi-head attention model from being dominated by a small portion of attention
heads while also reduces the risk of overfitting the training data, thus making
use of the multi-head attention mechanism more efficiently. Motivated by recent
studies about the learning dynamic of the multi-head attention mechanism, we
propose a specific dropout rate schedule to adaptively adjust the dropout rate
of DropHead and achieve better regularization effect. Experimental results on
both machine translation and text classification benchmark datasets demonstrate
the effectiveness of the proposed approach.
- Abstract(参考訳): 本稿では,様々なnlpタスクのための最先端モデルであるtransformerのキーコンポーネントであるマルチヘッドアテンション機構を定式化する,構造化ドロップアウト方式であるdropheadを提案する。
ユニットや接続をランダムにドロップする従来のドロップアウト機構とは対照的に,提案手法は構造化ドロップアウト方式である。
トレーニング中に注意ヘッド全体をドロップし、多頭注意モデルが少数の注意ヘッドに支配されるのを防ぐとともに、トレーニングデータの過剰フィットのリスクを低減し、多頭注意機構をより効率的に利用する。
マルチヘッドアテンション機構の学習力学に関する最近の研究により、DropHeadのドロップアウト率を適応的に調整し、より優れた正規化効果を達成するための特定のドロップアウト率スケジュールを提案する。
機械翻訳とテキスト分類ベンチマークによる実験結果から,提案手法の有効性が示された。
関連論文リスト
- Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - Distribution-Guided and Constrained Quantum Machine Unlearning [5.518378568494161]
機械学習は、学習モデルから特定のトレーニングデータの影響を、完全なリトレーニングなしで取り除くことを目的としている。
本稿では,非学習を制約付き最適化問題として扱う,クラスレベルの量子マシンアンラーニングのための分散誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T21:44:20Z) - From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers [0.0]
トランスフォーマーに基づくモデルが感情分析タスクに広く採用されている。
既存のモデルでは、主に一般的な単語に注意を向ける傾向があり、あまり人気がないがタスク関連性の高い用語を見越す傾向にある。
そこで本研究では,注意重みを適切な焦点に自動的に再分配する,AFA(Adversarial Feedback for Attention)トレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-12-19T01:48:25Z) - Fine-Grained Perturbation Guidance via Attention Head Selection [33.77035944924774]
ヘードハンター(HeadHunter)は、ユーザ中心の目標に合わせた注意点を反復的に選択するための体系的なフレームワークである。
ソフトパグ(SoftPAG)は、摂動強度を調整し、アーティファクトを抑える連続したノブである。
大規模なDiTベースのテキスト・ツー・イメージ・モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-06-12T17:59:51Z) - Relevance-driven Input Dropout: an Explanation-guided Regularization Technique [10.97680893924652]
オーバーフィッティング(Overfitting)は、最先端(SOTA)機械学習(ML)モデルにまで及ぶ、よく知られた問題である。
緩和対策には、ドロップアウト、データ強化、体重減少、その他の正規化技術の組み合わせが含まれる。
本稿では,RelDrop (Relevance-driven Input Dropout) を提案する。
論文 参考訳(メタデータ) (2025-05-27T16:52:29Z) - AttentionDrop: A Novel Regularization Method for Transformer Models [0.3262230127283452]
トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声処理において幅広いタスクで最先端のパフォーマンスを達成する。
しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。
本研究は,自己意識分布を直接操作する統一正規化手法のファミリーを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:51:16Z) - MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers [19.27328009299697]
経験的リスク最小化(ERM: Empirical Risk Minimization)モデルは、学習プロセス中に特徴とラベルの間の素早い相関に依存することが多い。
我々は,複数のショートカット学習行動を緩和するために,トランスフォーマーに基づく一般化と統合された新しい手法であるMiMuを提案する。
論文 参考訳(メタデータ) (2025-04-14T08:11:09Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - PLACE dropout: A Progressive Layer-wise and Channel-wise Dropout for
Domain Generalization [29.824723021053565]
ドメイン一般化(DG)は、複数の観測されたソースドメインからジェネリックモデルを学ぶことを目的としている。
DGの最大の課題は、ソースとターゲットドメイン間のドメインギャップのため、このモデルが必然的に過度にオーバーフィットする問題に直面していることだ。
そこで我々は,DGのための新しいレイヤワイド・チャネルワイド・ドロップアウトを開発し,各レイヤをランダムに選択し,そのチャネルをランダムに選択してドロップアウトを行う。
論文 参考訳(メタデータ) (2021-12-07T13:23:52Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。