論文の概要: SCCA: Shifted Cross Chunk Attention for long contextual semantic
expansion
- arxiv url: http://arxiv.org/abs/2312.07305v1
- Date: Tue, 12 Dec 2023 14:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:50:26.042420
- Title: SCCA: Shifted Cross Chunk Attention for long contextual semantic
expansion
- Title(参考訳): scca: コンテキストセマンティクスの長い拡張のために、クロスチャンクの注意を移す
- Authors: Yuxiang Guo
- Abstract要約: 我々は、異なるKVシフト戦略を用いて、各注目層内の各フィールドを拡張するシフトされたクロスチャンク注意(SCCA)を提示する。
SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行った。
SCCA は大規模言語モデル (LLM) をもっと長い文脈に拡張し、Placeal (PI) や LoRA と組み合わせることができる。
- 参考スコア(独自算出の注目度): 1.0279748604797911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse attention as a efficient method can significantly decrease the
computation cost, but current sparse attention tend to rely on window self
attention which block the global information flow. For this problem, we present
Shifted Cross Chunk Attention (SCCA), using different KV shifting strategy to
extend respective field in each attention layer. Except, we combine Dilated
Attention(DA) and Dilated Neighborhood Attention(DNA) to present Shifted
Dilated Attention(SDA). Both SCCA and SDA can accumulate attention results in
multi head attention to obtain approximate respective field in full attention.
In this paper, we conduct language modeling experiments using different pattern
of SCCA and combination of SCCA and SDA. The proposed shifted cross chunk
attention (SCCA) can effectively extend large language models (LLMs) to longer
context combined with Positional interpolation(PI) and LoRA than current sparse
attention. Notably, SCCA adopts LLaMA2 7B from 4k context to 8k in single V100.
This attention pattern can provide a Plug-and-play fine-tuning method to extend
model context while retaining their original architectures, and is compatible
with most existing techniques.
- Abstract(参考訳): 効率的な手法としてのスパース注意は、計算コストを大幅に削減することができるが、現在のスパース注意は、グローバル情報フローを妨げるウィンドウの自己注意に依存する傾向がある。
そこで我々は,各注目層内の各フィールドを拡張するために,異なるKVシフト戦略を用いてSCCA(Shifted Cross Chunk Attention)を提案する。
ただし,Dilated Attention(DA)とDilated Neighborhood Attention(DNA)を併用して,Shifted Dilated Attention(SDA)を提示する。
SCCAとSDAは、多視点で注目結果を蓄積し、全視野で近似する。
本稿では,SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行う。
提案したシフトクロスチャンクアテンション(SCCA)は,現在のスパースアテンションよりも大きな言語モデル(LLM)を,位置補間(PI)とLoRAと組み合わせて,より長いコンテキストに効果的に拡張することができる。
特にSCCAは、4kコンテキストから8kまでのLLaMA2 7Bを単一のV100で採用している。
この注意パターンは、元のアーキテクチャを維持しながらモデルコンテキストを拡張するプラグイン・アンド・プレイの微調整方法を提供することができ、既存のほとんどの技術と互換性がある。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Optimization-Inspired Cross-Attention Transformer for Compressive
Sensing [45.672646799969215]
高い解釈性と高い性能を有する深部展開ネットワーク(DUN)は、圧縮センシングにおいて注目を集めている。
既存のDUNは、多数のパラメーターの価格で視覚的品質を向上し、イテレーション中に特徴情報を失う問題を引き起こすことが多い。
画像CSのための軽量なOCTUF (OCT-based Unfolding Framework) を実現するため,OCTモジュールを反復処理として提案する。
論文 参考訳(メタデータ) (2023-04-27T07:21:30Z) - CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling [14.305838554936013]
ロングレンジ・アリーナ(Long Range Arena、LRA)は、標準的な双方向(または非因果的な)自己注意のみに焦点を当てている。
本研究では,4つの注意パターンを持つ詳細な注意条件下で,包括的注意ベンチマーク(CAB)を提案する。
論文 参考訳(メタデータ) (2022-10-14T09:25:47Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Domain Attention Consistency for Multi-Source Domain Adaptation [100.25573559447551]
主な設計は、伝達可能な特徴(属性)を識別することを目的とした機能チャネルアテンションモジュールである。
3つのMSDAベンチマーク実験により、DAC-Netは、それらすべてに対して、新たなパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2021-11-06T15:56:53Z) - Causal Attention for Vision-Language Tasks [142.82608295995652]
新しい注意機構:Causal Attention (CATT)について紹介する。
CATTは、既存の注目に基づく視覚言語モデルにおける絶え間ない欠点を除去する。
特に,CATTは大規模プレトレーニングにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-05T06:38:25Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。