論文の概要: Sliding Window Attention Adaptation
- arxiv url: http://arxiv.org/abs/2512.10411v2
- Date: Tue, 16 Dec 2025 05:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.923862
- Title: Sliding Window Attention Adaptation
- Title(参考訳): Sliding Window Attention Adaptation
- Authors: Yijiong Yu, Jiale Liu, Qingyun Wu, Huazheng Wang, Ji Pei,
- Abstract要約: スライディングウインドウ・アテンション (SWA) は、このコストを線形複雑性に還元するが、フルアテンション (FA) で事前訓練されたモデルに対して、完全にSWAを推論時に有効にすることは、トレーニング・推論ミスマッチ(英語版)による厳しい長文パフォーマンス劣化を引き起こす。
Sliding Window Attention Adaptation (SWAA)を提案する。
実験の結果,SWA適応は非自明に実現可能であることが明らかとなった。
- 参考スコア(独自算出の注目度): 28.274758251062213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios, which can greatly and fundamentally accelerate LLM long-context inference speed by up to 100%. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation
- Abstract(参考訳): Transformer-based Large Language Models (LLMs) の自己注意機構は入力長と2倍に拡張され、長文推論が高価になる。
スライディングウインドウ・アテンション(SWA)は、このコストを線形複雑性に還元するが、フルアテンション(FA)で事前訓練されたモデルに対して、完全にSWAを推論時に有効にすることは、トレーニング・推論ミスマッチ(英語版)による厳しい長コンテキスト性能低下を引き起こす。
FA-pretrained LLMは事前トレーニングなしでSWAに適応できるか?
スライディングウインドウ・アテンション・アダプテーション(SWAA)は,(1) プリフィル中にのみSWAを適用すること,(2) シンクトークンを保存すること,(3) FA/SWA層をインターリービングすること,(4) チェーン・オブ・シント(CoT),(5) 微調整すること,の5つの手法を組み合わせた実践的レシピである。
実験の結果,SWA適応は非自明に実現可能であることが明らかとなった。
さらに、異なるSWAA構成の性能・効率のトレードオフを分析し、LLM長文推論速度を最大100%高速化する多種多様なシナリオに対する推奨レシピを提供する。
私たちのコードはhttps://github.com/yuyijiong/sliding-window-attention-adaptationで利用可能です。
関連論文リスト
- LACONIC: Length-Aware Constrained Reinforcement Learning for LLM [29.383977698780374]
LACONICは、訓練中に目標トークン予算を強制する強化学習手法である。
出力長を50%以上削減しながら、pass@1を保存または改善する。
一般的な知識と多言語ベンチマークのドメイン外でのパフォーマンスを維持し、トークンは44%減少している。
論文 参考訳(メタデータ) (2026-02-16T05:09:40Z) - Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws [37.651943549758634]
バッチサイズスケジューリング(BSS)は、大規模ディープラーニングトレーニングにおいて重要な役割を果たす。
We show that the functional scaling law framework introduced in Li et al. (2025a) provided a principled lens for analysis BSS。
論文 参考訳(メタデータ) (2026-02-15T16:06:45Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning [14.465381326192757]
2つの障害モードが、選択(リハーサルの方法)と統合(新しい知識を統合する方法)という、このギャップを駆動している、と私たちは主張する。
選択に対処するため,サプライズ優先リプレイ(SuRe)を提案する。
統合に対処するため,高速かつ遅いLoRAアダプタを指数移動平均(EMA)でマージし,長期的知識の安定化を図りながら迅速な適応を実現した。
論文 参考訳(メタデータ) (2025-11-27T12:06:33Z) - Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning - A Convex Optimization Perspective [55.66517396157806]
オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。
これはSFTとRLHF/DPOのトレードオフの点において最適である。
本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上させる,実践的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:38:41Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation [64.7982176398485]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚化問題を緩和する効果を実証している。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-26T18:26:53Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Trainable Weight Averaging: Accelerating Training and Improving Generalization [35.17919937007783]
提案手法は,候補重みを対象とする減量部分空間内で動作する新しい最適化手法であるTWAを導入する。
TWAは柔軟性が高く、異なるトレーニングシナリオに適用できる。
大規模アプリケーションでは,並列計算と低ビット圧縮を組み合わせた分散トレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。