論文の概要: Gated-SwinRMT: Unifying Swin Windowed Attention with Retentive Manhattan Decay via Input-Dependent Gating
- arxiv url: http://arxiv.org/abs/2604.06014v2
- Date: Fri, 10 Apr 2026 15:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.655615
- Title: Gated-SwinRMT: Unifying Swin Windowed Attention with Retentive Manhattan Decay via Input-Dependent Gating
- Title(参考訳): Gated-SwinRMT:入力依存ゲーティングによるマンハッタンの抑止でスウィンウィンドウの注意を統一する
- Authors: Dipan Maity, Suman Mondal, Arindam Roy,
- Abstract要約: Gated-SwinRMTは、Swin Transformerのシフトウインドウの注意とRetentive Networks (RMT)のマンハッタン距離空間減衰を組み合わせたハイブリッド・ビジョン・トランスフォーマーのファミリーである。
Gated-SwinRMT-SWATは、ソフトマックスにシグモイド活性化を代用し、乗算後空間崩壊を伴うバランスの取れたALiBi斜面を実装し、SwiGLUを介して値投影をゲートする。
Gated-SwinRMT-Retentionは、追加の対数空間崩壊バイアスでソフトマックス正規化保持を維持し、明示的なG1シグモイドゲートを組み込む
- 参考スコア(独自算出の注目度): 0.6945765172815976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Gated-SwinRMT, a family of hybrid vision transformers that combine the shifted-window attention of the Swin Transformer with the Manhattan-distance spatial decay of Retentive Networks (RMT), augmented by input-dependent gating. Self-attention is decomposed into consecutive width-wise and height-wise retention passes within each shifted window, where per-head exponential decay masks provide a two-dimensional locality prior without learned positional biases. Two variants are proposed.Gated-SwinRMT-SWAT substitutes softmax with sigmoid activation, implements balanced ALiBi slopes with multiplicative post-activation spatial decay, and gates the value projection via SwiGLU; the Normalized output implicitly suppresses uninformative attention scores. \textbf{Gated-SwinRMT-Retention} retains softmax-normalized retention with an additive log-space decay bias and incorporates an explicit G1 sigmoid gate -- projected from the block input and applied after local context enhancement (LCE) but prior to the output projection~$W_O$ -- to alleviate the low-rank $W_V \!\cdot\! W_O$ bottleneck and enable input-dependent suppression of attended outputs. We assess both variants on Mini-ImageNet ($224{\times}224$, 100 classes) and CIFAR-10 ($32{\times}32$, 10 classes) under identical training protocols, utilizing a single GPU due to resource limitations. At ${\approx}77$--$79$\,M parameters, Gated-SwinRMT-SWAT achieves $80.22\%$ and Gated-SwinRMT-Retention $78.20\%$ top-1 test accuracy on Mini-ImageNet, compared with $73.74\%$ for the RMT baseline. On CIFAR-10 -- where small feature maps cause the adaptive windowing mechanism to collapse attention to global scope -- the accuracy advantage compresses from $+6.48$\,pp to $+0.56$\,pp.
- Abstract(参考訳): 本稿では,Swin Transformerの風向とRMTのマンハッタン距離空間減衰を組み合わせたハイブリッド・ビジョン・トランスフォーマーのファミリーであるGated-SwinRMTを紹介する。
自己アテンションは、各シフトウインドウ内で連続した幅方向と高さ方向の保持パスに分解され、この際、頭当たりの指数減衰マスクは、学習された位置バイアスなしで2次元の局所性を提供する。
Gated-SwinRMT-SWATはソフトマックスにシグミド活性化を代用し、乗算後空間崩壊を伴うバランスの取れたALiBi斜面を実装し、SwiGLUを介して値投影をゲートし、正規化出力は非形式的注意スコアを暗黙的に抑制する。
\textbf{Gated-SwinRMT-Retention} は、ソフトマックス正規化保持を付加的な対数空間の崩壊バイアスで保持し、ブロック入力から射出され、ローカルコンテキスト拡張(LCE)後に適用される明示的なG1シグモノイドゲートを組み込んで、出力プロジェクション~$W_O$ -- の前に、低ランクの$W_V \!を緩和する。
デーモン!
W_O$ボトルネックを発生させ、入出力の入力依存的な抑制を可能にする。
Mini-ImageNet (224{\times} 224$, 100 class) と CIFAR-10 (32{\times} 32$, 10 class) の2つの変種を同一のトレーニングプロトコルで評価し、リソース制限のため単一のGPUを利用する。
${\approx}77$-79$\,M パラメータで Gated-SwinRMT-SWAT は 80.22\%$ と Gated-SwinRMT-Retention 7,8.20\%$ top-1 test accuracy を Mini-ImageNet で達成した。
CIFAR-10 -- 小さな特徴マップが適応ウィンドウ機構のグローバルスコープへの注意を崩壊させる -- では、精度の優位性は$+6.48$\,ppから$+0.56$\,ppに圧縮される。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention [10.607730369798551]
入力適応型学習ゲートを導入し,情報集約をKV$特徴写像に選択的に変調する。
SAGAはスループットが1.76$times$改善され、PVT-Tと比較してピークGPUメモリが2.69$times$削減された。
ImageNetデータセットでトップ1の精度を最大4.4%向上させ、計算効率とモデルの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-16T08:36:05Z) - SplashNet: Split-and-Share Encoders for Accurate and Efficient Typing with Surface Electromyography [3.3640830721676003]
手首にある表面筋電図(sEMG)は、キーボードのない自然なテキスト入力を可能にする。
最先端の Emg2qwerty ベースラインは、まだ見知らぬユーザーのゼロショット設定で511.8%の文字を認識していない。
これらの誤りの多くを、ユーザ間信号統計のミスマッチに追従する。
論文 参考訳(メタデータ) (2025-06-14T05:38:29Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。