論文の概要: On the token distance modeling ability of higher RoPE attention dimension
- arxiv url: http://arxiv.org/abs/2410.08703v2
- Date: Mon, 21 Oct 2024 08:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:25:15.598628
- Title: On the token distance modeling ability of higher RoPE attention dimension
- Title(参考訳): 高いRoPE注意次元のトークン距離モデリング能力について
- Authors: Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou,
- Abstract要約: 本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
- 参考スコア(独自算出の注目度): 76.55792402912027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length extrapolation algorithms based on Rotary position embedding (RoPE) have shown promising results in extending the context length of language models. However, understanding how position embedding can capture longer-range contextual information remains elusive. Based on the intuition that different dimensions correspond to different frequency of changes in RoPE encoding, we conducted a dimension-level analysis to investigate the correlation between a hidden dimension of an attention head and its contribution to capturing long-distance dependencies. Using our correlation metric, we identified a particular type of attention heads, which we named Positional Heads, from various length-extrapolated models. These heads exhibit a strong focus on long-range information interaction and play a pivotal role in long input processing, as evidence by our ablation. We further demonstrate the correlation between the efficiency of length extrapolation and the extension of the high-dimensional attention allocation of these heads. The identification of Positional Heads provides insights for future research in long-text comprehension.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)に基づく長さ推定アルゴリズムは,言語モデルの文脈長を拡張できる有望な結果を示した。
しかし, 位置埋め込みが長期の文脈情報をどのように捉えるかを理解することは, いまだ解明されていない。
異なる次元がRoPE符号化の異なる周波数変化に対応するという直感に基づいて,注目ヘッドの隠蔽次元と長距離依存性の捕捉への寄与との相関性を検討するために,次元レベルの解析を行った。
相関指標を用いて,様々な長さ抽出モデルから特定の種類の注意ヘッドを同定し,位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、当社のアブレーションによる証拠として、長い入力処理において重要な役割を担っている。
さらに、長さ外挿の効率とこれらのヘッドの高次元的アテンションアロケーションの延長との相関性を示す。
位置頭部の同定は、長文理解における将来の研究の洞察を与える。
関連論文リスト
- HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - Caformer: Rethinking Time Series Analysis from Causal Perspective [7.354128514581098]
本稿では,因果的観点からの時系列解析のためのCaformerという新しいフレームワークを紹介する。
本フレームワークは,動的学習,環境学習,依存学習という3つのコンポーネントから構成される。
我々のCaformerは5つの主流時系列分析タスクで一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-13T14:28:02Z) - Unveiling the Secrets of Engaging Conversations: Factors that Keep Users
Hooked on Role-Playing Dialog Agents [17.791787477586574]
ボットが果たす役割を具現化する程度は保持率に限られた影響を与え、各ターンの長さは保持率に大きく影響する。
本研究は,ロールプレイングモデルによるユーザエンゲージメントの重要な側面を明らかにし,ロールプレイング目的の大規模言語モデルの開発において,今後の改善に向けた貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-18T09:42:41Z) - Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Continual Learning of Long Topic Sequences in Neural Information
Retrieval [2.3846478553599098]
まず,MSMarcoコーパスに基づいて,トピックの長いストリームをモデル化するデータセットを提案する。
次に、これらのストリームを継続的に学習しながら、最近のニューラルIRモデルの能力を詳細に分析する。
論文 参考訳(メタデータ) (2022-01-10T14:19:09Z) - Enriched Attention for Robust Relation Extraction [10.925904231385207]
関係抽出モデルは、複数の実体と関係を持つ長い文にうまくスケールしない。
注意することで、モデルは関係抽出に関連する入力文の一部に集中することができる。
私達のモデルは2つの一般的なベンチマークの同等のセットアップを使用して前の仕事より優秀です。
論文 参考訳(メタデータ) (2021-04-22T07:17:19Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。