論文の概要: Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models
- arxiv url: http://arxiv.org/abs/2510.17196v1
- Date: Mon, 20 Oct 2025 06:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.329758
- Title: Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models
- Title(参考訳): 階層的スパース注意モデルにおける長さ一般化の理解と改善
- Authors: Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu,
- Abstract要約: チャンクに基づくスパースアテンションは、極端な長さの一般化のための有望なパラダイムとして現れている。
本稿では,これらのモデルを体系的に分解し,その性能を駆動するコアコンポーネントを同定する。
我々は、4KコンテキストでトレーニングされたモデルをRULERとBABILongで3200万トークンに一般化し、トレーニング不要な長さ外挿のための新しい最先端技術を確立した。
- 参考スコア(独自算出の注目度): 33.99822400076112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively processing long contexts is a critical challenge for language models. While standard Transformers are limited by quadratic complexity and poor length extrapolation, alternative architectures like sliding window attention and state space models sacrifice the ability to effectively utilize the full context due to their fixed-size memory. Chunk-based sparse attention has emerged as a promising paradigm for extreme length generalization, yet the key architectural principles underpinning its success are not yet fully understood. In this work, we present a systematic dissection of these models to identify the core components driving their performance. Through a unified framework and comprehensive ablation studies, we demonstrate that a combination of three design principles is critical: (1) an expressive, non-linear Chunk Encoder with a dedicated CLS token to produce representations for retrieval; (2) a Bypassing Residual Path to stably integrate retrieved global information without it being overridden by the local residual stream; and (3) enforced selection sparsity during pre-training to bridge the train-test distribution gap. We provide a theoretical motivation for intra-chunk information processing and landmark generation. By combining these principles, we establish a new state-of-the-art for training-free length extrapolation, successfully generalizing models trained on a 4K context to 32 million tokens on RULER and BABILong. Our findings provide a clear and empirically-grounded set of design principles for developing future, highly-capable long-context language models.
- Abstract(参考訳): 長いコンテキストを効果的に処理することは言語モデルにとって重要な課題である。
標準的なトランスフォーマーは、二次的な複雑さと長さの外挿不足によって制限されるが、スライディングウィンドウアテンションや状態空間モデルのような代替アーキテクチャは、固定サイズのメモリのためにフルコンテキストを効果的に活用する能力を犠牲にしている。
チャンクベースのスパース・アテンションは、極端な長さの一般化のための有望なパラダイムとして現れているが、その成功を支える重要なアーキテクチャ原則はまだ完全には理解されていない。
本研究では,これらのモデルを系統的に分解し,その性能を駆動するコアコンポーネントを同定する。
統合された枠組みと包括的アブレーション研究を通じて,(1)表現的で非線形なチャンクエンコーダと専用のCRSトークンを組み合わせて検索用表現を生成すること,(2)局所的残差ストリームによってオーバーライドされることなく検索したグローバル情報を安定的に統合すること,(3)事前学習中に選択間隔を強制すること,の3つの設計原理が重要であることを示した。
チャンク内情報処理とランドマーク生成の理論的動機を提供する。
これらの原理を組み合わせることで、4KコンテキストでトレーニングされたモデルをRULERおよびBABILong上で3200万トークンに一般化する、トレーニング不要な長さ外挿のための新しい最先端技術を確立する。
我々の研究は、将来、高機能な長文言語モデルを開発するための、明確で実証的な設計原則のセットを提供する。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。
我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文 参考訳(メタデータ) (2025-05-26T17:55:15Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。