論文の概要: Core Context Aware Transformers for Long Context Language Modeling
- arxiv url: http://arxiv.org/abs/2412.12465v2
- Date: Wed, 28 May 2025 13:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:26.956431
- Title: Core Context Aware Transformers for Long Context Language Modeling
- Title(参考訳): 長期言語モデリングのためのコアコンテキスト認識変換器
- Authors: Yaofo Chen, Zeng You, Shuhai Zhang, Haokun Li, Yirui Li, Yaowei Wang, Mingkui Tan,
- Abstract要約: 高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
- 参考スコア(独自算出の注目度): 50.774702091154204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Large Language Models (LLMs) have exhibited remarkable success in extensive tasks primarily attributed to self-attention mechanism, which requires a token to consider all preceding tokens as its context to compute attention. However, when the context length L becomes very large (e.g., 128K), the amount of potentially redundant information in the context tends to increase. The redundant context not only hampers the modeling representation performance but also incurs unnecessary computational and storage overhead. In this paper, we propose a plug-and-play Core Context Aware (CCA) Attention for efficient long-context modeling, comprising two complementary modules: 1) Globality-aware pooling module groups input tokens and dynamically compresses each group into one core token based on their significance. In this way, our method automatically focuses and strengthens core context while diminishing redundancy during the learning process, leading to effective long-term dependency modeling. 2) Locality-preserving module incorporates neighboring tokens to preserve local context for detailed representation. Notably, our CCA-Attention is able to replace the self-attention module in existing LLMs with minimal fine-tuning cost. Extensive experimental results show the superiority of our method in both long-context modeling and computational efficiency over state-of-the-art methods.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、主に自己注意機構に起因する広範囲なタスクにおいて顕著な成功を収めている。
しかし、コンテキスト長Lが非常に大きくなる(例えば、128K)と、コンテキスト内の潜在的に冗長な情報が増加する傾向にある。
冗長なコンテキストはモデリング表現のパフォーマンスを損なうだけでなく、不要な計算とストレージのオーバーヘッドを引き起こす。
本稿では,2つの相補的モジュールからなる,効率的な長文モデリングのためのCCAアテンションを提案する。
1)グローバル性を考慮したプールモジュールは入力トークンをグループ化し,各グループをその意義に基づいて動的に1つのコアトークンに圧縮する。
このようにして,本手法は学習過程における冗長性を低減しつつ,コアコンテキストを自動的に集中し,強化する。
2) 局所性保存モジュールは、局所的なコンテキストを詳細な表現のために保持するために、隣接するトークンを組み込む。
特に、我々のCCA-Attentionは、既存のLCMの自己保持モジュールを最小限の微調整コストで置き換えることができる。
従来手法よりも長期文脈モデリングと計算効率の両面で,本手法の優位性を示した。
関連論文リスト
- PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models [0.0]
PACTは,無関係なトークンを抽出し,視覚的に冗長なトークンをマージすることで,推論時間とメモリ使用量を削減する手法である。
我々の手法は、注意点に頼ることなく重要でないトークンを識別するために、新しい重要性の指標を用いる。
また、視覚トークンを効率的にクラスタリングする、距離境界密度ピーククラスタリングという新しいクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-11T20:45:00Z) - Dynamic Bi-Elman Attention Networks: A Dual-Directional Context-Aware Test-Time Learning for Text Classification [17.33216148544084]
本稿では,DBEAN(Dynamic Bidirectional Elman with Attention Network)を提案する。
DBEANは双方向時間モデリングと自己認識機構を統合している。
重みを入力のクリティカルセグメントに動的に割り当て、計算効率を維持しながら文脈表現を改善する。
論文 参考訳(メタデータ) (2025-03-19T17:45:13Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Integrating a Heterogeneous Graph with Entity-aware Self-attention using
Relative Position Labels for Reading Comprehension Model [14.721615285883429]
異種グラフからの推論知識を外部知識に頼らずにトランスフォーマーアーキテクチャに組み込む新しい注意パターンを導入する。
提案する注目パターンは, 単語トークンに対するグローバルな注意, グラフに関連付けられたトークンに対する強い注意を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。
我々のモデルは、最先端のLUKE-GraphとベースラインのLUKEモデルの両方を2つの異なるデータセットで比較した。
論文 参考訳(メタデータ) (2023-07-19T20:17:37Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Efficient Representation Learning via Adaptive Context Pooling [15.673260849127695]
自己注意機構は、個々のトークンによって定義された固定された注意の粒度を仮定するが、これはより高いレベルで複雑な依存関係をモデル化するのに最適ではないかもしれない。
トークン毎の注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。
ContextPoolは、注意モデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを実現し、その結果、コストを大幅に削減します。
論文 参考訳(メタデータ) (2022-07-05T07:10:31Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。