論文の概要: Core Context Aware Attention for Long Context Language Modeling
- arxiv url: http://arxiv.org/abs/2412.12465v1
- Date: Tue, 17 Dec 2024 01:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:33.616476
- Title: Core Context Aware Attention for Long Context Language Modeling
- Title(参考訳): 長期言語モデリングのためのコアコンテキスト認識
- Authors: Yaofo Chen, Zeng You, Shuhai Zhang, Haokun Li, Yirui Li, Yaowei Wang, Mingkui Tan,
- Abstract要約: 本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 50.774702091154204
- License:
- Abstract: Transformer-based Large Language Models (LLMs) have exhibited remarkable success in various natural language processing tasks primarily attributed to self-attention mechanism, which requires a token to consider all preceding tokens as its context to compute the attention score. However, when the context length L becomes very large (e.g., 32K), more redundant context information will be included w.r.t. any tokens, making the self-attention suffer from two main limitations: 1) The computational and memory complexity scales quadratically w.r.t. L; 2) The presence of redundant context information may hamper the model to capture dependencies among crucial tokens, which may degrade the representation performance. In this paper, we propose a plug-and-play Core Context Aware (CCA) Attention for efficient long-range context modeling, which consists of two components: 1) Globality-pooling attention that divides input tokens into groups and then dynamically merges tokens within each group into one core token based on their significance; 2) Locality-preserved attention that incorporates neighboring tokens into the attention calculation. The two complementary attentions will then be fused to the final attention, maintaining comprehensive modeling ability as the full self-attention. In this way, the core context information w.r.t. a given token will be automatically focused and strengthened, while the context information in redundant groups will be diminished during the learning process. As a result, the computational and memory complexity will be significantly reduced. More importantly, the CCA-Attention can improve the long-context modeling ability by diminishing the redundant context information. Extensive experimental results demonstrate that our CCA-Attention significantly outperforms state-of-the-art models in terms of computational efficiency and long-context modeling ability.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、主に自己認識機構に起因する様々な自然言語処理タスクにおいて顕著な成功を収めている。
しかし、文脈長 L が非常に大きくなると(例えば 32K など)、より冗長な文脈情報は任意のトークンに含められ、自己注意は2つの主要な制限に悩まされる。
1)計算とメモリの複雑さは2次的にスケールする。
2) 冗長なコンテキスト情報の存在は、重要なトークン間の依存関係をキャプチャするモデルを妨げ、表現性能を低下させる可能性がある。
本稿では,2つのコンポーネントから構成される,効率的な長距離コンテキストモデリングのための,CCA(Core Context Aware)アテンションを提案する。
1) 入力トークンをグループに分割し,その重要性に基づいて各グループ内のトークンを1つのコアトークンに動的にマージするグローバル性プーリング注意。
2) 周辺トークンを注意計算に組み込んだ局所保存注意。
2つの補完的な注意は最終的な注意に融合し、完全な自己注意として包括的なモデリング能力を維持する。
このようにして、与えられたトークンのコアコンテキスト情報w.r.t.は自動的に集中・強化され、冗長なグループのコンテキスト情報は学習プロセス中に減少する。
その結果、計算とメモリの複雑さは大幅に減少する。
さらに重要なことは、CCA-Attentionは冗長なコンテキスト情報を減らすことで、長期コンテキストモデリング能力を向上させることができる。
CCA-Attention は計算効率と長文モデリング能力において最先端モデルよりも優れていた。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Integrating a Heterogeneous Graph with Entity-aware Self-attention using
Relative Position Labels for Reading Comprehension Model [14.721615285883429]
異種グラフからの推論知識を外部知識に頼らずにトランスフォーマーアーキテクチャに組み込む新しい注意パターンを導入する。
提案する注目パターンは, 単語トークンに対するグローバルな注意, グラフに関連付けられたトークンに対する強い注意を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。
我々のモデルは、最先端のLUKE-GraphとベースラインのLUKEモデルの両方を2つの異なるデータセットで比較した。
論文 参考訳(メタデータ) (2023-07-19T20:17:37Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Efficient Representation Learning via Adaptive Context Pooling [15.673260849127695]
自己注意機構は、個々のトークンによって定義された固定された注意の粒度を仮定するが、これはより高いレベルで複雑な依存関係をモデル化するのに最適ではないかもしれない。
トークン毎の注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。
ContextPoolは、注意モデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを実現し、その結果、コストを大幅に削減します。
論文 参考訳(メタデータ) (2022-07-05T07:10:31Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。