Fugu-MT 論文翻訳(概要): AttentionDrop: A Novel Regularization Method for Transformer Models

論文の概要: AttentionDrop: A Novel Regularization Method for Transformer Models

arxiv url: http://arxiv.org/abs/2504.12088v1
Date: Wed, 16 Apr 2025 13:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 17:33:59.459669
Title: AttentionDrop: A Novel Regularization Method for Transformer Models
Title（参考訳）: AttentionDrop: 変圧器モデルのための新しい正規化手法
Authors: Mirza Samad Ahmed Baig, Syeda Anshrah Gillani, Abdul Akbar Khan, Shahid Munir Shah,
Abstract要約: トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声の幅広いタスクで最先端のパフォーマンスを達成する。本稿では,自己意識分布を直接操作する統一正規化手法であるAttentionDropを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based architectures achieve state-of-the-art performance across a wide range of tasks in natural language processing, computer vision, and speech. However, their immense capacity often leads to overfitting, especially when training data is limited or noisy. We propose AttentionDrop, a unified family of stochastic regularization techniques that operate directly on the self-attention distributions. We introduces three variants: 1. Hard Attention Masking: randomly zeroes out top-k attention logits per query to encourage diverse context utilization. 2. Blurred Attention Smoothing: applies a dynamic Gaussian convolution over attention logits to diffuse overly peaked distributions. 3. Consistency-Regularized AttentionDrop: enforces output stability under multiple independent AttentionDrop perturbations via a KL-based consistency loss.
Abstract（参考訳）: トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声の幅広いタスクで最先端のパフォーマンスを達成する。しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。本稿では,自己注意分布を直接操作する確率正規化手法の一群であるAttentionDropを提案する。 3つのバリエーションを紹介します。 1. ハードアテンションマスキング: クエリごとのトップkアテンションログをランダムにゼロにして、さまざまなコンテキスト利用を促進する。 2. ブルーレイド注意平滑化: 過度にピーク分布を拡散するために注意ログに動的ガウス的畳み込みを適用する。 3. 一貫性規則化アテンションDrop:KLに基づく一貫性損失による複数の独立アテンションDrop摂動の下で出力安定性を強制する。

関連論文リスト

Control and Realism: Best of Both Worlds in Layout-to-Image without Training [59.16447569868382]
レイアウト・ツー・イメージ生成のためのトレーニング不要なWinWinLayを提案する。制御精度とリアリズムを協調的に向上する,非局所的注意エネルギーと適応更新という2つの重要な戦略を提案する。 WinWinLayは、要素配置の制御とフォトリアリスティックな視覚的忠実さの達成に優れ、現在の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-06-18T15:39:02Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文参考訳（メタデータ） (2025-05-16T09:06:15Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Focus What Matters: Matchability-Based Reweighting for Local Feature Matching [6.361840891399624]
本稿では,学習可能なバイアス項をアテンションロジットに同時に組み込む新しいアテンション再重み付け機構を提案する。 3つのベンチマークデータセットを用いて実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-05-04T15:50:28Z)
A Language Anchor-Guided Method for Robust Noisy Domain Generalization [20.83580289888522]
アンカーアライメントとアダプティブウェイトリング(A3W)について紹介する。 A3Wは、自然言語処理(NLP)アンカーでガイドされたサンプル再重み付けを使用して、より代表的な特徴を抽出する。最先端の領域一般化法より一貫して優れている。
論文参考訳（メタデータ） (2025-03-21T15:20:28Z)
Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文参考訳（メタデータ） (2025-03-19T05:25:52Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.651257973799527]
RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。 HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文参考訳（メタデータ） (2024-12-11T08:31:47Z)
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文参考訳（メタデータ） (2024-11-25T10:57:48Z)
Scaling Stick-Breaking Attention: An Efficient Implementation and In-depth Study [38.492552119793]
大規模環境下での突破プロセスに基づく別の注意機構について検討する。従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションが現在の手法と競合することがわかった。
論文参考訳（メタデータ） (2024-10-23T15:51:13Z)
Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。 2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文参考訳（メタデータ） (2024-02-03T09:35:53Z)
PV2TEA: Patching Visual Modality to Textual-Established Information Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。 PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文参考訳（メタデータ） (2023-06-01T05:39:45Z)
Stabilizing Transformer Training by Preventing Attention Entropy Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文参考訳（メタデータ） (2023-03-11T03:30:47Z)
WeaNF: Weak Supervision with Normalizing Flows [4.446580498787894]
弱監督は、ノイズのあるラベル、カバレッジ、バイアスの問題を提起する。ラベル付け関数を対象とする入力側データ分布を生成的にモデル化する。各種弱監視データセットの有効性とモデル化能力について検討する。
論文参考訳（メタデータ） (2022-04-28T10:59:54Z)
Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。それらの出力は、より小さな項の和に分解できることを示す。我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文参考訳（メタデータ） (2021-03-05T00:39:05Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)
Scheduled DropHead: A Regularization Method for Transformer Models [111.18614166615968]
DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。トレーニング中にすべての注意を落とします。マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
論文参考訳（メタデータ） (2020-04-28T07:33:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。