論文の概要: Dynamical Properties of Tokens in Self-Attention and Effects of Positional Encoding
- arxiv url: http://arxiv.org/abs/2512.03058v1
- Date: Tue, 25 Nov 2025 19:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.920528
- Title: Dynamical Properties of Tokens in Self-Attention and Effects of Positional Encoding
- Title(参考訳): 自己注意におけるトークンの動的特性と位置エンコーディングの効果
- Authors: Duy-Tung Pham, An The Nguyen, Viet-Hoang Tran, Nhan-Phu Chung, Xin T. Tong, Tan M. Nguyen, Thieu N. Vo,
- Abstract要約: トークンが時間とともに互いに近づいたり近づいたりする場合、モデルのパラメータによって特徴付けます。
位置符号化の異なる形態、特に絶対的および回転的形態が、これらの力学系にどのように影響するかを考察する。
これらの知見により、絶対的あるいは回転的な位置符号化を持つモデルにおける収束挙動を緩和するトランスフォーマーアーキテクチャの簡易な改良を提案する。
- 参考スコア(独自算出の注目度): 5.2482659629416535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the dynamical properties of tokens in pre-trained Transformer models and explores their application to improving Transformers. To this end, we analyze the dynamical system governing the continuous-time limit of the pre-trained model and characterize the asymptotic behavior of its solutions. Specifically, we characterize when tokens move closer to or farther from one another over time, depending on the model parameters. We provide sufficient conditions, based on these parameters, to identify scenarios where tokens either converge to zero or diverge to infinity. Unlike prior works, our conditions are broader in scope and more applicable to real-world models. Furthermore, we investigate how different forms of positional encoding -- specifically absolute and rotary -- affect these dynamical regimes. Empirical evidence reveals that the convergence scenario adversely impacts model performance. Motivated by these insights, we propose simple refinements to Transformer architectures that mitigate convergence behavior in models with absolute or rotary positional encoding. These findings support theoretical foundations and design principles for improving Transformer models.
- Abstract(参考訳): 本稿では、事前学習したTransformerモデルにおけるトークンの動的特性について検討し、Transformerの改良への応用について検討する。
そこで本研究では,事前学習したモデルの連続時間限界を規定する力学系を解析し,その解の漸近的挙動を特徴付ける。
具体的には、モデルパラメータによってトークンが時間とともに互いに近づいたり近づいたりする場合を特徴付けます。
これらのパラメータに基づいて、トークンがゼロに収束するか無限大に分岐するシナリオを特定するのに十分な条件を提供する。
従来の研究とは異なり、我々の条件はスコープが広く、現実世界のモデルにもより適用できる。
さらに、位置符号化の異なる形態、特に絶対的および回転的形態が、これらの力学系にどのように影響するかを考察する。
実証的な証拠は、収束シナリオがモデルの性能に悪影響を及ぼすことを示している。
これらの知見により、絶対的あるいは回転的な位置符号化を持つモデルにおける収束挙動を緩和するトランスフォーマーアーキテクチャの簡易な改良を提案する。
これらの知見はトランスフォーマーモデルを改善するための理論的基礎と設計原則を支持している。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Impact of conditional modelling for a universal autoregressive quantum
state [0.0]
ニューラルネットワークにおける畳み込み層の類似体としてフィルタを導入し、任意の量子状態に翻訳的対称性付き相関を組み込む。
得られた帰納バイアスが変動柔軟性,対称性,保存量に与える影響を解析した。
論文 参考訳(メタデータ) (2023-06-09T14:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。