論文の概要: Sliding Window Attention Adaptation
- arxiv url: http://arxiv.org/abs/2512.10411v2
- Date: Tue, 16 Dec 2025 05:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.923862
- Title: Sliding Window Attention Adaptation
- Title(参考訳): Sliding Window Attention Adaptation
- Authors: Yijiong Yu, Jiale Liu, Qingyun Wu, Huazheng Wang, Ji Pei,
- Abstract要約: スライディングウインドウ・アテンション (SWA) は、このコストを線形複雑性に還元するが、フルアテンション (FA) で事前訓練されたモデルに対して、完全にSWAを推論時に有効にすることは、トレーニング・推論ミスマッチ(英語版)による厳しい長文パフォーマンス劣化を引き起こす。
Sliding Window Attention Adaptation (SWAA)を提案する。
実験の結果,SWA適応は非自明に実現可能であることが明らかとなった。
- 参考スコア(独自算出の注目度): 28.274758251062213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios, which can greatly and fundamentally accelerate LLM long-context inference speed by up to 100%. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation
- Abstract(参考訳): Transformer-based Large Language Models (LLMs) の自己注意機構は入力長と2倍に拡張され、長文推論が高価になる。
スライディングウインドウ・アテンション(SWA)は、このコストを線形複雑性に還元するが、フルアテンション(FA)で事前訓練されたモデルに対して、完全にSWAを推論時に有効にすることは、トレーニング・推論ミスマッチ(英語版)による厳しい長コンテキスト性能低下を引き起こす。
FA-pretrained LLMは事前トレーニングなしでSWAに適応できるか?
スライディングウインドウ・アテンション・アダプテーション(SWAA)は,(1) プリフィル中にのみSWAを適用すること,(2) シンクトークンを保存すること,(3) FA/SWA層をインターリービングすること,(4) チェーン・オブ・シント(CoT),(5) 微調整すること,の5つの手法を組み合わせた実践的レシピである。
実験の結果,SWA適応は非自明に実現可能であることが明らかとなった。
さらに、異なるSWAA構成の性能・効率のトレードオフを分析し、LLM長文推論速度を最大100%高速化する多種多様なシナリオに対する推奨レシピを提供する。
私たちのコードはhttps://github.com/yuyijiong/sliding-window-attention-adaptationで利用可能です。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation [64.7982176398485]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚化問題を緩和する効果を実証している。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-26T18:26:53Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Trainable Weight Averaging: Accelerating Training and Improving Generalization [35.17919937007783]
提案手法は,候補重みを対象とする減量部分空間内で動作する新しい最適化手法であるTWAを導入する。
TWAは柔軟性が高く、異なるトレーニングシナリオに適用できる。
大規模アプリケーションでは,並列計算と低ビット圧縮を組み合わせた分散トレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。