Fugu-MT 論文翻訳(概要): SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models

論文の概要: SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models

arxiv url: http://arxiv.org/abs/2406.05678v1
Date: Sun, 9 Jun 2024 07:23:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:36:48.514838
Title: SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models
Title（参考訳）: SinkLoRA: 長期的大規模言語モデルにおける効率性とチャット機能の向上
Authors: Hengyu Zhang,
Abstract要約: 自己保持機構は、シーケンス長で2次スケールする。 LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。 SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
参考スコア（独自算出の注目度）: 4.497551890206997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extending the functionality of the Transformer model to accommodate longer sequence lengths has become a critical challenge. This extension is crucial not only for improving tasks such as language translation and long-context processing but also for enabling novel applications like chatbots, code generation, and multimedia content creation. The primary obstacle is the self-attention mechanism, which scales quadratically with sequence length in terms of computation time and memory requirements. LongLoRA proposed shifted sparse attention (S$^2$-Attn), effectively enabling context extension and leading to non-trivial computation savings with similar performance to fine-tuning with vanilla attention. However, LongLoRA is still not as efficient as vanilla attention, reaching only 39\% of the perplexity improvement compared to full attention. This inefficiency is due to the cyclic shift applied within different attention head patterns, causing either chaos in the attention head structure or unnecessary information exchange between token groups. To address these issues, We propose \textbf{SinkLoRA}, which features better work partitioning. Specifically, (1) we developed SF-Attn with a segmentation and reassembly algorithm to proportionally return cyclically shifted groups of attention heads to their un-shifted state together with global attention of "sink attention tokens", achieving 92\% of the perplexity improvement compared to full attention after fine tuning, and (2) applied a SOTA KV cache compression algorithm H$_2$O to accelerate inference. Furthermore, We conducted supervised fine-tuning with SinkLoRA using a self collected LongAlpaca-plus dataset. All our code, models, datasets, and demos are available at \url{https://github.com/Dexter-GT-86/SinkLoRA}.
Abstract（参考訳）: 長いシーケンス長に対応するためにTransformerモデルの機能を拡張することは、重要な課題となっている。この拡張は、言語翻訳や長文処理などのタスクの改善だけでなく、チャットボット、コード生成、マルチメディアコンテンツ生成といった新しいアプリケーションの実現にも不可欠である。第一の障害は自己保持機構であり、計算時間とメモリ要求の観点から、シーケンス長を2次にスケールする。 LongLoRAはスパースアテンション(S$^2$-Attn)を導入し、コンテキスト拡張を効果的に実現し、バニラアテンションによる微調整に類似した性能を持つ非自明な計算を省いた。しかしながら、LongLoRAは、バニラの注意ほど効率的ではないため、完全な注意に比べて、難易度の改善の39倍にしか達していない。この非効率性は、異なるアテンションヘッドパターンに適用される循環シフトによって、アテンションヘッド構造におけるカオスやトークングループ間の不要な情報交換を引き起こす。これらの問題に対処するために、より優れた作業分割を特徴とする \textbf{SinkLoRA} を提案する。具体的には, SF-Attnをセグメント化, 再組換えアルゴリズムを用いて, 非シフト状態に周期的にシフトしたグループを「シンク・アテンション・トークン」のグローバルな注目とともに比例的に返却し, 微調整後のフルアテンションに比べて92倍のパープレキシティ改善を実現し, 2) SOTA KVキャッシュ圧縮アルゴリズムH$_2$Oを適用して推論を高速化した。さらに,自己収集したLongAlpaca-plusデータセットを用いて,SinkLoRAを用いた教師あり微調整を行った。コード、モデル、データセット、デモはすべて、 \url{https://github.com/Dexter-GT-86/SinkLoRA}で利用可能です。

関連論文リスト

RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling [17.437929000395112]
再発機構と注意機構の間にラットという中間設計を導入する。入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。チャンクサイズが16の場合、ラット層は100Kトークンシーケンスで(7時間)訓練速度を向上し、4Kシーケンス長で(9時間)生成する。
論文参考訳（メタデータ） (2025-07-06T15:08:49Z)
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文参考訳（メタデータ） (2025-06-13T15:35:54Z)
DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文参考訳（メタデータ） (2025-06-06T20:24:36Z)
CacheFormer: High Attention-Based Segment Caching [0.0]
パープレキシティの低いトランスフォーマーベース言語モデルにおいて,長いコンテキストを効率的に処理する方法を示す。我々の拡張により、既存のSOTAアーキテクチャよりも平均パープレキシティが8.5%向上し、類似のモデルサイズよりも優れています。
論文参考訳（メタデータ） (2025-04-18T06:34:57Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。 Star Attentionは、グローバルな注意でトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、95～100%の精度を維持しながら、メモリ要件と推論時間を最大11倍削減する。
論文参考訳（メタデータ） (2024-11-26T05:10:04Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文参考訳（メタデータ） (2024-08-07T21:16:55Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文参考訳（メタデータ） (2024-05-27T17:38:13Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。