論文の概要: Residual Stream Duality in Modern Transformer Architectures
- arxiv url: http://arxiv.org/abs/2603.16039v1
- Date: Tue, 17 Mar 2026 00:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.055616
- Title: Residual Stream Duality in Modern Transformer Architectures
- Title(参考訳): 現代変圧器アーキテクチャにおける残留ストリーム双対性
- Authors: Yifan Zhang,
- Abstract要約: 最近の研究により、残留経路は単なる最適化配管ではなく、モデルの表現機械の一部であることが明らかになった。
このデザイン空間を整理する最もクリーンな方法は、Transformerの2軸ビューである、と私たちは主張する。
- 参考スコア(独自算出の注目度): 9.910562011343009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer$^2$. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.
- Abstract(参考訳): 最近の研究により、残留経路は単なる最適化配管ではなく、モデルの表現機械の一部であることが明らかになった。
私たちは同意するが、このデザイン空間を整理する最もクリーンな方法はトランスフォーマーの2軸ビューであると主張している。
デコーダは、シーケンス位置と層深度という2つの順序付けられた次元に沿って情報を進化させる。
自己アテンションは、配列軸に沿って適応的な混合を提供するのに対し、残留ストリームは通常、深さ軸に沿って固定的な加算を行う。
トークンの位置を固定し、層インデックスを順序変数として扱う場合、因果深さ方向の残留注意読み出しは、シーケンスオーバーよりも奥行きオーバーで書き直された場合を除いて、まさに因果ショート・スライディング・ウインドウ・アテンション(ShortSWA)と同一の局所演算子である。
これはTransformer$^2$の背後にあるコア残ストリームの双対性である。
この視点は近年の文献も明らかにしている。
ELC-BERTとDenseFormerは、深度を超える学習されたアグリゲーションが均一な残留蓄積より優れていることをすでに示しているが、Vertical Attention、DeepCrossAttention (DCA)、MUDDFormer、Attention Residualsは、以前のレイヤへの明示的なアグリゲーションベースのルーティングに向かって前進している。
しかし、鍵となる点は、作用素レベルの双対性はシステムレベルの対称性を含まないことである。
大規模な自己回帰モデルでは、トークン側のスライディングウインドウカーネル、KVキャッシュレイアウト、チャンク実行を再利用するため、シーケンス軸のShortSWAがハードウェアフレンドリーな配置であることが多い。
目的がショートカット自体を変更する場合、Deep Delta Learning(DDL)は、個別のクロス層検索パスを追加するのではなく、残留演算子を直接変更するため、よりクリーンな介入である。
ショートカットが関心の対象である場合にはDDLを使用し、ゴールが局所適応混合である場合にはシーケンス軸ShortSWAを使用します。
関連論文リスト
- Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds [0.4779196219827507]
本研究では,トランスフォーマーアテンションヘッドにおいて,クロスエントロピートレーニングがアテンションスコアとバリューベクターをいかに再帰させるかを示す。
私たちの中核的な成果は、注目スコアに対する強調に基づくルーティング法です。
この結合された特殊化は、2時間規模のEMプロシージャのように振る舞うことを示す。
論文 参考訳(メタデータ) (2025-12-27T05:31:44Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation [24.03121823263355]
本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
論文 参考訳(メタデータ) (2023-02-16T08:53:08Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。