論文の概要: Beyond position: how rotary embeddings shape representations and memory in autoregressive transfomers
- arxiv url: http://arxiv.org/abs/2410.18067v1
- Date: Wed, 23 Oct 2024 17:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:49.747951
- Title: Beyond position: how rotary embeddings shape representations and memory in autoregressive transfomers
- Title(参考訳): 自己回帰トランスフォーマーにおける形状表現と記憶の回転埋め込み
- Authors: Valeria Ruscio, Fabrizio Silvestri,
- Abstract要約: RoPE(Rotary Positional Embeddings)は、Transformerモデルにおける位置符号化を強化する。
本稿では,RoPEが位置依存回転を導入し,トークン埋め込みにおける位相シフトを引き起こす方法について検討する。
- 参考スコア(独自算出の注目度): 7.3645788720974465
- License:
- Abstract: Rotary Positional Embeddings (RoPE) enhance positional encoding in Transformer models, yet their full impact on model dynamics remains underexplored. This paper studies how RoPE introduces position-dependent rotations, causing phase shifts in token embeddings that influence higher-frequency components within the model's internal representations. Through spectral analysis, we demonstrate that RoPE's rotation matrices induce oscillatory behaviors in embeddings, affecting information retention across layers and shaping temporal modeling capabilities. We show that activation functions in feed-forward networks interact with RoPE-modulated embeddings to generate harmonics, leading to constructive or destructive interference based on phase alignment. Our findings reveal that phase alignment amplifies activations and sharpens attention, while misalignment weakens activations and disrupts focus on positional patterns. This study underscores the importance of frequency components as intrinsic elements of model behavior, offering new insights beyond traditional analyses.
- Abstract(参考訳): RoPE(Rotary Positional Embeddings)は、Transformerモデルにおける位置エンコーディングを強化するが、モデルダイナミクスに対するその完全な影響は未解明のままである。
本稿では,RoPEが位置依存回転を導入し,内部表現の高周波数成分に影響を与えるトークン埋め込みの位相変化を引き起こす方法について検討する。
スペクトル分析により,RoPEの回転行列は埋め込みにおける振動挙動を誘発し,層間の情報保持や時間的モデリング能力に影響を及ぼすことを示した。
フィードフォワードネットワークにおけるアクティベーション関数が,RoPE変調埋め込みと相互作用して高調波を発生し,位相アライメントに基づく建設的あるいは破壊的干渉を引き起こすことを示す。
その結果, 位相アライメントはアクティベーションを増幅し, 注意を喚起する一方で, 誤調整はアクティベーションを弱め, 位置パターンに焦点を絞らせることが明らかとなった。
本研究は,周波数成分をモデル行動の本質的要素として重要視し,従来の分析以上の新たな知見を提供する。
関連論文リスト
- Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - The Impact of LoRA on the Emergence of Clusters in Transformers [2.7309692684728617]
我々は,ciptsander2022sinkformers,geshkovski2023,geshkovski2023によって開発されたトランスフォーマーのフレームワークを用いて,トークンクラスタの構造的ダイナミクスに,注目パラメータや初期トークン値の変動がどう影響するかを数学的に検討する。
この研究は、LoRAアルゴリズム citehu2021lora,peft への実践的応用を通じて微調整分野に寄与し、LoRA強化トランスフォーマーモデルの振る舞いの理解を深める。
論文 参考訳(メタデータ) (2024-02-23T16:26:01Z) - The Uncanny Valley: A Comprehensive Analysis of Diffusion Models [1.223779595809275]
拡散モデル (DM) は高品質な画像の生成に大きな進歩をもたらした。
ノイズスケジュールやサンプル,ガイダンスなど,さまざまなDMアーキテクチャのキーとなる側面について検討する。
比較分析の結果,拡散確率モデル(DDPM)に基づく拡散力学はノイズ条件付きスコアネットワーク(NCSN)より一貫して優れていた。
論文 参考訳(メタデータ) (2024-02-20T20:49:22Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z) - Feedback-induced instabilities and dynamics in the Jaynes-Cummings model [62.997667081978825]
時間遅延コヒーレントフィードバックを受けるJaynes-Cummingsモデルのコヒーレンスと定常状態特性について検討する。
導入されたフィードバックは、システムの動的応答と定常量子特性を質的に修正する。
論文 参考訳(メタデータ) (2020-06-20T10:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。