論文の概要: Rotary Outliers and Rotary Offset Features in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01832v1
- Date: Mon, 03 Mar 2025 18:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:33.268086
- Title: Rotary Outliers and Rotary Offset Features in Large Language Models
- Title(参考訳): 大規模言語モデルにおける回転外乱と回転オフセットの特徴
- Authors: André Jonasson,
- Abstract要約: 回転埋め込みを用いた場合,クエリやキーに現れる特徴やパターンについて検討する。
クエリとキーのモデル間のアウトレーヤを発見し解析し、部分サイクルで回転する機能に見出される可能性が高いことを発見した。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License:
- Abstract: Transformer-based Large Language Models (LLMs) rely on positional encodings to provide sequence position information to their attention mechanism. Rotary Positional Encodings (RoPE), which encode relative position by rotating queries and keys, have become widely used in modern LLMs. We study the features and patterns that emerge in queries and keys when using rotary embeddings. Our analysis reveals consistent patterns within the same model across layers and attention heads and across different models and architectures. We present and apply analysis techniques and show how the queries and keys use RoPE to construct various attention patterns, including attention sinks. We find and analyze outliers across models in queries and keys and find that they are likely to be found in rotary features with partial cycles. We derive bounds that tell us what rotary frequencies are likely to be selected as outlier features and at what minimum angle the query-key rotary pairs in these features tend to be above and verify the bounds empirically with models of significant architectural differences.
- Abstract(参考訳): Transformer-based Large Language Models (LLM) は、その注意機構にシーケンス位置情報を提供するために位置エンコーディングに依存する。
回転するクエリとキーによって相対位置を符号化するロータリー位置符号化(RoPE)は、現代のLLMで広く使われている。
回転埋め込みを用いた場合,クエリやキーに現れる特徴やパターンについて検討する。
私たちの分析では、レイヤとアテンションヘッド、異なるモデルとアーキテクチャにまたがる同じモデル内の一貫したパターンを明らかにします。
本稿では,クエリとキーがRoPEを用いてアテンションシンクなどのさまざまなアテンションパターンを構築する方法を示し,分析手法を適用した。
クエリとキーのモデル間のアウトレーヤを発見し解析し、部分サイクルで回転する機能に見出される可能性が高いことを発見した。
これらの特徴のうち、どの回転周波数が外れ値の特徴として選択されるか、どの最小角度でクエリキーの回転対が上にあるかを示す境界を導出し、重要なアーキテクチャ上の違いのモデルで実験的に検証する。
関連論文リスト
- Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。
トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。
様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - WaveRoRA: Wavelet Rotary Route Attention for Multivariate Time Series Forecasting [4.680374146155483]
本稿では,時系列データの複雑な時間依存性をモデル化するウェーブレット学習フレームワークを提案する。
ウェーブレット領域は時間と周波数情報を統合し、異なるスケールでの信号の局所特性の分析を可能にする。
回転路注意機構(Rotary Route Attention, RoRA)を提案する。
論文 参考訳(メタデータ) (2024-10-30T02:36:55Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。