論文の概要: Explicit Dropout: Deterministic Regularization for Transformer Architectures
- arxiv url: http://arxiv.org/abs/2604.20505v1
- Date: Wed, 22 Apr 2026 12:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.126972
- Title: Explicit Dropout: Deterministic Regularization for Transformer Architectures
- Title(参考訳): 明示的なドロップアウト: トランスフォーマーアーキテクチャにおける決定論的規則化
- Authors: Vidhi Agrawal, Illia Oleksiienko, Alexandros Iosifidis,
- Abstract要約: ドロップアウトはディープラーニングにおいて広く使われている正規化手法であるが、その効果は一般的にマスキングによって実現される。
トレーニング損失に直接組み込まれた加算正則化器としてドロップアウトを表現する決定論的定式化を提案する。
- 参考スコア(独自算出の注目度): 55.09895958546215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dropout is a widely used regularization technique in deep learning, but its effects are typically realized through stochastic masking rather than explicit optimization objectives. We propose a deterministic formulation that expresses dropout as an additive regularizer directly incorporated into the training loss. The framework derives explicit regularization terms for Transformer architectures, covering attention query, key, value, and feed-forward components with independently controllable strengths. This formulation removes reliance on stochastic perturbations while providing clearer and fine-grained control over regularization strength. Experiments across image classification, temporal action detection, and audio classification show that explicit dropout matches or outperforms conventional implicit methods, with consistent gains when applied to attention and feed-forward network layers. Ablation studies demonstrate stable performance and controllable regularization through regularization coefficients and dropout rates. Overall, explicit dropout offers a practical and interpretable alternative to stochastic regularization while maintaining architectural flexibility across diverse tasks.
- Abstract(参考訳): ドロップアウトはディープラーニングにおいて広く使われている正規化手法であるが、その効果は通常、明示的な最適化目的よりも確率的なマスキングによって実現される。
トレーニング損失に直接組み込まれた加算正則化器としてドロップアウトを表現する決定論的定式化を提案する。
このフレームワークはトランスフォーマーアーキテクチャの明確な正規化用語を導いており、注意クエリ、キー、値、フィードフォワードコンポーネントを独立して制御可能な強度でカバーしている。
この定式化は、正則化強度をより明確かつきめ細かな制御を提供しながら、確率的摂動に依存しない。
画像分類、時間的行動検出、音声分類にまたがる実験では、明示的なドロップアウトが従来の暗黙の手法と一致し、注意層やフィードフォワードネットワーク層に適用すると一貫した利得を示す。
アブレーション研究は、正則化係数とドロップアウト率による安定な性能と制御可能な正則化を示す。
全体として、明示的なドロップアウトは、様々なタスクにわたるアーキテクチャの柔軟性を維持しながら、確率正規化に代わる実用的で解釈可能な代替手段を提供する。
関連論文リスト
- REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning [5.853890728403084]
最近のテキストモデルは、散在する不均一なタスクのコレクション上で、対照的な事前ファインタニング(PFT)によって、しばしば特殊ドメインに適合する。
このアプローチは多くの場合、ドメイン知識と並行してタスクによって引き起こされるバイアスを導入し、制御されていない表現シフトをもたらす。
埋め込み前ファインタニング中の表現シフトを明示的に制御する表現正規化フレームワークであるRを提案する。
論文 参考訳(メタデータ) (2026-04-19T04:41:55Z) - Likelihood-guided Regularization in Attention Based Models [1.561268797057701]
視覚変換器(ViTs)のための確率誘導型変分型Ising型正規化フレームワークを提案する。
そこで,Ising正則化器は,不確実性を考慮した注意機構を通じて,精度の高い確率推定と構造的特徴選択を導出することを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:09Z) - AttentionDrop: A Novel Regularization Method for Transformer Models [0.3262230127283452]
トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声処理において幅広いタスクで最先端のパフォーマンスを達成する。
しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。
本研究は,自己意識分布を直接操作する統一正規化手法のファミリーを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:51:16Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。