論文の概要: Scaling Bidirectional Spans and Span Violations in Attention Mechanism
- arxiv url: http://arxiv.org/abs/2512.13033v1
- Date: Mon, 15 Dec 2025 07:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.560387
- Title: Scaling Bidirectional Spans and Span Violations in Attention Mechanism
- Title(参考訳): 注意機構における双方向スパンとスパン振動のスケーリング
- Authors: Jongwook Kim, Sangheon Yun, Sukjin Yoon,
- Abstract要約: canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
- 参考スコア(独自算出の注目度): 5.755498052202004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The canonical $O(N^2)$ Transformer remains the empirical performance frontier in sequence modeling, and its training can be further optimized by addressing geometric inefficiency. We propose an optimization framework that leverages an asymmetric projection to decompose the backward-pass gradients into parallel spans and orthogonal violations, while keeping the canonical forward-pass $QKV$ structure intact. Through consistent experimental validation across various decomposition and projection setups, we provide strong theoretical evidence: the standard attention gradient is suboptimal. We demonstrated that selectively scaling these components, focusing primarily on $0^{th}$ order bidirectional parallel spans, yields the most effective learning signal. On the limited WikiText-2 dataset, and using a crude configuration, this method achieved a $0.56\%$ reduction in validation loss, confirming the framework's fundamental validity and suggesting significant potential gains on larger datasets and deeper training regimes
- Abstract(参考訳): 標準的な$O(N^2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアであり、そのトレーニングは幾何学的非効率に対処することによってさらに最適化することができる。
非対称なプロジェクションを利用して、逆方向の勾配を平行なスパンと直交の違反に分解し、標準のフォワードパス$QKV$構造をそのまま維持する最適化フレームワークを提案する。
様々な分解・投射装置における一貫した実験的検証を通じて、標準的な注意勾配は最適以下である、強い理論的証拠を提供する。
我々はこれらの成分を選択的にスケーリングし、主に$0^{th}$の双方向並列スパンに焦点をあてることで、最も効果的な学習信号が得られることを示した。
限られたWikiText-2データセットと粗い構成を用いて、この手法は検証損失の0.56\%の削減を達成し、フレームワークの基本的妥当性を確認し、より大きなデータセットとより深いトレーニング体制に有意義な可能性を示す。
関連論文リスト
- Preconditioned Score and Flow Matching [15.378063594292955]
共分散 $_t$ of $p_t$ が最適化バイアスを支配していることを示す。
我々は、$p_t$の幾何学を再構成する可逆的でラベル条件付きエンプレコンディショニングマップを提案する。
プレコンディショニングは最適下高原を避けることによって、より優れたトレーニングモデルが得られることを示す。
論文 参考訳(メタデータ) (2026-03-02T19:09:15Z) - PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal
Inference [0.0]
本稿では,パラメトリックサブモデルと連続正規化フローを統合することにより,因果推論に対する画期的なアプローチを提案する。
我々は、最適輸送とワッサーシュタイン勾配流を利用して、有限サンプル設定における最小分散の因果推論手法を開発する。
予備実験では, 従来の流れに比べて平均二乗誤差が低い。
論文 参考訳(メタデータ) (2023-11-30T18:59:05Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。
PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文 参考訳(メタデータ) (2023-09-05T07:49:10Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。