論文の概要: AttentionDrop: A Novel Regularization Method for Transformer Models
- arxiv url: http://arxiv.org/abs/2504.12088v1
- Date: Wed, 16 Apr 2025 13:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 17:33:59.459669
- Title: AttentionDrop: A Novel Regularization Method for Transformer Models
- Title(参考訳): AttentionDrop: 変圧器モデルのための新しい正規化手法
- Authors: Mirza Samad Ahmed Baig, Syeda Anshrah Gillani, Abdul Akbar Khan, Shahid Munir Shah,
- Abstract要約: トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声の幅広いタスクで最先端のパフォーマンスを達成する。
本稿では,自己意識分布を直接操作する統一正規化手法であるAttentionDropを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures achieve state-of-the-art performance across a wide range of tasks in natural language processing, computer vision, and speech. However, their immense capacity often leads to overfitting, especially when training data is limited or noisy. We propose AttentionDrop, a unified family of stochastic regularization techniques that operate directly on the self-attention distributions. We introduces three variants: 1. Hard Attention Masking: randomly zeroes out top-k attention logits per query to encourage diverse context utilization. 2. Blurred Attention Smoothing: applies a dynamic Gaussian convolution over attention logits to diffuse overly peaked distributions. 3. Consistency-Regularized AttentionDrop: enforces output stability under multiple independent AttentionDrop perturbations via a KL-based consistency loss.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声の幅広いタスクで最先端のパフォーマンスを達成する。
しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。
本稿では,自己注意分布を直接操作する確率正規化手法の一群であるAttentionDropを提案する。
3つのバリエーションを紹介します。
1. ハードアテンションマスキング: クエリごとのトップkアテンションログをランダムにゼロにして、さまざまなコンテキスト利用を促進する。
2. ブルーレイド注意平滑化: 過度にピーク分布を拡散するために注意ログに動的ガウス的畳み込みを適用する。
3. 一貫性規則化アテンションDrop:KLに基づく一貫性損失による複数の独立アテンションDrop摂動の下で出力安定性を強制する。
関連論文リスト
- A Language Anchor-Guided Method for Robust Noisy Domain Generalization [20.83580289888522]
アンカーアライメントとアダプティブウェイトリング(A3W)について紹介する。
A3Wは、自然言語処理(NLP)アンカーでガイドされたサンプル再重み付けを使用して、より代表的な特徴を抽出する。
最先端の領域一般化法より一貫して優れている。
論文 参考訳(メタデータ) (2025-03-21T15:20:28Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.651257973799527]
RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。
HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。
一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-11T08:31:47Z) - Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - WeaNF: Weak Supervision with Normalizing Flows [4.446580498787894]
弱監督は、ノイズのあるラベル、カバレッジ、バイアスの問題を提起する。
ラベル付け関数を対象とする入力側データ分布を生成的にモデル化する。
各種弱監視データセットの有効性とモデル化能力について検討する。
論文 参考訳(メタデータ) (2022-04-28T10:59:54Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Scheduled DropHead: A Regularization Method for Transformer Models [111.18614166615968]
DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。
トレーニング中にすべての注意を落とします。
マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
論文 参考訳(メタデータ) (2020-04-28T07:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。