論文の概要: CoCA: Fusing Position Embedding with Collinear Constrained Attention in
Transformers for Long Context Window Extending
- arxiv url: http://arxiv.org/abs/2309.08646v3
- Date: Wed, 28 Feb 2024 05:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:54:30.808113
- Title: CoCA: Fusing Position Embedding with Collinear Constrained Attention in
Transformers for Long Context Window Extending
- Title(参考訳): CoCA:長期窓拡張用変圧器におけるコリニア拘束注意を用いたハウジング位置埋め込み
- Authors: Shiyi Zhu, Jing Ye, Wei Jiang, Siqiao Xue, Qi Zhang, Yifan Wu, Jianguo
Li
- Abstract要約: 自己注意と位置埋め込みは、トランスフォーマーベースの大規模言語モデルにおける重要なモジュールである。
我々は新しい注意機構であるCoCA(Collinear Constrained Attention)を提案する。
コンテクストウィンドウの拡張において,CoCAは極めて良好に機能することを示す。
- 参考スコア(独自算出の注目度): 25.72066098366845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention and position embedding are two key modules in
transformer-based Large Language Models (LLMs). However, the potential
relationship between them is far from well studied, especially for long context
window extending. In fact, anomalous behaviors harming long context
extrapolation exist between Rotary Position Embedding (RoPE) and vanilla
self-attention unveiled by our work. To address this issue, we propose a novel
attention mechanism, CoCA (Collinear Constrained Attention). Specifically, we
enforce a collinear constraint between $Q$ and $K$ to seamlessly integrate RoPE
and self-attention. While only adding minimal computational and spatial
complexity, this integration significantly enhances long context window
extrapolation ability. We provide an optimized implementation, making it a
drop-in replacement for any existing transformer-based models. Extensive
experiments show that CoCA performs extraordinarily well in extending context
windows. A CoCA-based GPT model, trained with a context length of 512, can
seamlessly extend the context window up to 32K (60$\times$), without any
fine-tuning. Additionally, by dropping CoCA in LLaMA-7B, we achieve
extrapolation up to 32K within only 2K training length. Our code is publicly
available at: https://github.com/codefuse-ai/Collinear-Constrained-Attention
- Abstract(参考訳): 自己注意と位置埋め込みは、トランスフォーマーベースのLarge Language Models (LLM) における2つの重要なモジュールである。
しかしながら、それら間の潜在的な関係は、特に長期のコンテキストウィンドウの拡張について、十分に研究されていない。
実際に,ロータリー・ポジション・エンベディング(RoPE)とバニラ・セルフアテンションとの間には,長期のコンテキスト外挿を損なう異常な行動が存在する。
この問題に対処するために,新しい注意機構であるCoCA(Collinear Constrained Attention)を提案する。
具体的には、RoPEと自己注意をシームレスに統合するために、$Q$と$K$の間のコリニア制約を強制する。
計算量や空間の複雑さは最小だが、この統合は長いコンテキストウィンドウの補間能力を大幅に向上させる。
我々は最適化された実装を提供し、既存のトランスフォーマーベースのモデルに代わります。
大規模な実験により、CoCAはコンテキストウィンドウの拡張において極めてよく機能することが示された。
コンテキスト長512でトレーニングされたCoCAベースのGPTモデルは、微調整なしで、コンテキストウィンドウを32K (60$\times$)までシームレスに拡張することができる。
さらに,LLaMA-7BにCOCAを投下することにより,2Kトレーニング長以内で最大32Kの補間が可能となる。
私たちのコードは、https://github.com/codefuse-ai/Collinear-Constrained-Attentionで公開されています。
関連論文リスト
- LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - RMT: Retentive Networks Meet Vision Transformers [59.827563438653975]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - YaRN: Efficient Context Window Extension of Large Language Models [1.024113475677323]
RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。
本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。
LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
論文 参考訳(メタデータ) (2023-08-31T18:18:07Z) - SG-Former: Self-guided Transformer with Evolving Token Reallocation [89.9363449724261]
本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。
我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。
提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
論文 参考訳(メタデータ) (2023-08-23T15:52:45Z) - Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。
FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文 参考訳(メタデータ) (2023-07-06T17:52:10Z) - Align With Purpose: Optimize Desired Properties in CTC Models with a
General Plug-and-Play Framework [8.228892600588765]
Connectionist Temporal Classification (CTC) はシークエンス・ツー・シークエンス(seq2seq)モデルをトレーニングするために広く使われている基準である。
CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$textbf General Plug-and-Playフレームワークである$textitAlign With Purposeを提案する。
我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,訓練データセットのスケールといった点において,その汎用性を示す。
論文 参考訳(メタデータ) (2023-07-04T13:34:47Z) - Extending Context Window of Large Language Models via Positional
Interpolation [26.076599895589098]
我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
論文 参考訳(メタデータ) (2023-06-27T16:26:26Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。