論文の概要: The Rotary Position Embedding May Cause Dimension Inefficiency in Attention Heads for Long-Distance Retrieval
- arxiv url: http://arxiv.org/abs/2502.11276v1
- Date: Sun, 16 Feb 2025 21:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:24.770575
- Title: The Rotary Position Embedding May Cause Dimension Inefficiency in Attention Heads for Long-Distance Retrieval
- Title(参考訳): 遠距離検索用頭部の寸法不効率の原因となるロータリー位置埋め込み
- Authors: Ting-Rui Chiang, Dani Yogatama,
- Abstract要約: RoPE(Rotary Position Embedding)は多くの大規模言語モデル(LLM)のアテンションヘッドで広く使われている。
本稿では,RoPEの適用が特定の次元の低効用を引き起こすことを示す制御実験を示す。
- 参考スコア(独自算出の注目度): 22.977283451634275
- License:
- Abstract: The Rotary Position Embedding (RoPE) is widely used in the attention heads of many large language models (LLM). It rotates dimensions in the query and the key vectors by different angles according to their positions in the input sequence. For long context modeling, the range of positions may vary a lot, and thus RoPE rotates some dimensions by a great range of angles. We hypothesize that the wide range of rotation angles may prevent LLMs from utilizing those dimensions. To validate this hypothesis, we present a controlled experiment showing that applying RoPE causes low utility of certain dimensions. Our analyses on three LLMs also indicate that these dimensions do not help LLMs do long-context question answering.
- Abstract(参考訳): RoPE(Rotary Position Embedding)は多くの大規模言語モデル(LLM)のアテンションヘッドで広く使われている。
クエリの次元とキーベクトルは入力シーケンスの位置に応じて異なる角度で回転する。
長期の文脈モデリングでは、位置の範囲は様々であり、したがってRoPEはいくつかの次元を広い角度で回転させる。
広い角度の回転角は、LLMがそれらの次元を利用するのを妨げうると仮定する。
この仮説を検証するために,RoPEの適用が特定の次元の低実用性を引き起こすことを示す制御実験を行った。
3つのLLMについて分析したところ、これらの次元はLLMが長文質問応答を行うのに役に立たないことが示唆された。
関連論文リスト
- Wavelet-based Positional Representation for Long Context [14.902305283428642]
長い文脈における従来の位置符号化手法を解析する。
ウェーブレット変換を利用して複数のスケール(ウィンドウサイズ)をキャプチャする新しい位置表現法を提案する。
実験結果から,本手法は短所と長所の両方でモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-02-04T04:44:53Z) - What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.71625297655583]
MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文 参考訳(メタデータ) (2024-11-04T19:05:49Z) - On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-11T10:47:02Z) - Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - Mitigate Position Bias in Large Language Models via Scaling a Single Dimension [47.792435921037274]
本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。
さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。
これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T17:55:38Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。