論文の概要: Focus and Dilution: The Multi-stage Learning Process of Attention
- arxiv url: http://arxiv.org/abs/2605.01199v1
- Date: Sat, 02 May 2026 02:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.634923
- Title: Focus and Dilution: The Multi-stage Learning Process of Attention
- Title(参考訳): 集中と希釈:多段階的注意学習プロセス
- Authors: Zheng-An Chen, Pengxiao Lin, Zhi-Qin John Xu, Tao Luo,
- Abstract要約: 一つの焦点希釈サイクルを異なる段階の連続に分解できることを示す。
合成マルコフデータとWikiTextとTinyStoriesの実験は、予測段階と循環力学を相関させる。
- 参考スコア(独自算出の注目度): 9.240393019828968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have achieved remarkable success across a wide range of domains, yet our understanding of their training dynamics remains limited. In this work, we identify a recurrent focus-dilution cycle in attention learning and provide a rigorous explanation in a one-layer Transformer setting for Markovian data via gradient-flow analysis. Using stage-wise linearization around critical points, we show that a single focus-dilution cycle can be decomposed into a sequence of distinct stages. First, embedding and projection rapidly condense to a rank-one structure, while attention parameters remain effectively frozen. Then, the attention parameters begin to increase, inducing a frequency-driven focus toward high-frequency tokens. As attention continues to evolve, it generates next-order perturbations in embeddings, leading to a mass-redistribution mechanism that progressively dilutes this focus. Finally, small asymmetries among low-frequency tokens lift a degenerate critical point, opening new embedding directions and initiating the next cycle. Experiments on synthetic Markovian data as well as WikiText and TinyStories corroborate the predicted stages and cyclical dynamics.
- Abstract(参考訳): トランスフォーマーベースのモデルは、幅広い領域で顕著な成功を収めていますが、トレーニングのダイナミクスに対する私たちの理解は限定的です。
本研究では、注意学習における繰り返し焦点希釈サイクルを特定し、勾配流解析によるマルコフデータの1層トランスフォーマー設定において厳密な説明を提供する。
臨界点を中心とした段階的線形化を用いて、単一の焦点希釈サイクルを異なる段階の列に分解できることが示される。
第一に、埋め込みと投射は急速に1階構造に収束し、注意パラメータは効果的に凍結したままである。
その後、注目パラメータが増加し始め、高周波トークンに対する周波数駆動の焦点が誘導される。
注意が進化し続けるにつれて、埋め込みにおける次の次の摂動を発生させ、この焦点を徐々に希薄化する質量再分配機構へと繋がる。
最後に、低周波トークン間の小さな非対称性は縮退臨界点を持ち上げ、新しい埋め込み方向を開き、次のサイクルを開始する。
合成マルコフデータとWikiTextとTinyStoriesの実験は、予測段階と循環力学を相関させる。
関連論文リスト
- Continual Learning with Query-Only Attention [0.0]
継続的な学習には、データポイントを繰り返すことなく、データのストリームから学ぶことが含まれる。
本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
論文 参考訳(メタデータ) (2025-10-01T00:14:34Z) - Attention (as Discrete-Time Markov) Chains [76.61244121046035]
注意行列の新しい解釈を離散時間マルコフ連鎖として導入する。
キーとなる観察は、意味的に類似した領域に関連付けられたトークンが準安定状態、すなわち注意が集中する傾向にある領域を形成し、ノイズの多い注意スコアが散逸することである。
最後に、グローバルトークンの重要性を測定するマルコフ連鎖の定常状態ベクトルであるTokenRankを定義する。
論文 参考訳(メタデータ) (2025-07-23T16:20:47Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。