論文の概要: Long Context Pre-Training with Lighthouse Attention
- arxiv url: http://arxiv.org/abs/2605.06554v1
- Date: Thu, 07 May 2026 16:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.010935
- Title: Long Context Pre-Training with Lighthouse Attention
- Title(参考訳): 灯台注意による長期事前訓練
- Authors: Bowen Peng, Subho Ghosh, Jeffrey Quesnelle,
- Abstract要約: 極端配列長の訓練因果変換器は、スケールドドット積注意(SDPA)の2次時間と記憶によってボトルネックとなる
トレーニングのみの対称選択に基づく階層型アテンションアルゴリズムであるLighthouse Attentionを提案する。
階層的な選択もグラデーションフリーであり、複雑で潜在的に非効率な後方パスカーネルを扱うことを免除します。
- 参考スコア(独自算出の注目度): 5.900714266080363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training causal transformers at extreme sequence lengths is bottlenecked by the quadratic time and memory of scaled dot-product attention (SDPA). In this work, we propose Lighthouse Attention, a training-only symmetrical selection-based hierarchical attention algorithm that wraps around ordinary SDPA and can be easily removed towards the end of the training. Our hierarchical selection is also gradient-free, which exempts us from dealing with a complicated and potentially inefficient backward pass kernel. Our contribution is three-fold: (i) A subquadratic hierarchical pre- and post-processing step that does adaptive compression and decompression of the sequence. (ii) A symmetrical compression strategy that pools queries, keys and values at the same time, while preserving left-to-right causality, which greatly improves parallelism. (iii) A two stage training approach which we pre-train for the majority of the time with Lighthouse Attention and recover a full attention model at the end with a short training. We run preliminary small scale LLM pre-training experiments that show the effectiveness of our method compared to full attention training with all other settings matched, where we achieve a faster total training time and lower final loss after the recovery phase. Full code is available at: https://github.com/ighoshsubho/lighthouse-attention
- Abstract(参考訳): 極端配列長での因果変換器の訓練は、拡張ドット積注意(SDPA)の二次時間と記憶によってボトルネックとなる。
本研究では,通常のSDPAを包み込み,トレーニング終了時に容易に除去可能な,トレーニングのみの対称選択に基づく階層型アテンションアルゴリズムであるLighthouse Attentionを提案する。
階層的な選択もグラデーションフリーであり、複雑で潜在的に非効率な後方パスカーネルを扱うことを免除します。
私たちの貢献は3倍です。
一 系列の適応圧縮及び非圧縮を行う準四次的階層的前処理及び後処理のステップ
二 左右因果関係を保ちながら、クエリ、キー、値を同時にプールする対称圧縮戦略で、並列性を大幅に改善する。
三 灯台注意で大半を事前訓練し、短期訓練で終盤に全注意モデルを回復する二段階訓練アプローチ。
予備的な小規模LLM事前学習実験を行い,本手法の有効性について検討した。
完全なコードは、https://github.com/ighoshsubho/lighthouse-attention.comで入手できる。
関連論文リスト
- DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training [22.898073682504023]
FlashAttention-3のような広く使われているアテンション実装では、決定論的後方通過は37.9%のスループット低下を引き起こす。
我々は、DAG(Directed Acyclic Graph)上のスケジューリング問題として、決定論的注意の後方通過を定式化する。
本稿では2つの相補的なスケジューリング戦略をカプセル化したDASH(Deterministic Attention Scheduling for High-Throughput)を提案する。
論文 参考訳(メタデータ) (2026-01-29T15:10:13Z) - Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文 参考訳(メタデータ) (2025-10-24T19:29:55Z) - Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting [6.653834890554154]
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。
提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
論文 参考訳(メタデータ) (2025-10-10T08:55:32Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Overcoming Catastrophic Forgetting via Direction-Constrained
Optimization [43.53836230865248]
連続的な学習フレームワークにおいて,分類ネットワークの固定アーキテクチャを用いてディープラーニングモデルを学習するための最適化アルゴリズムの新たな設計について検討する。
本稿では,方向制約付き最適化(DCO)法について述べる。各タスクに対して,対応する最上向きの主方向を近似する線形オートエンコーダを導入する。
我々のアルゴリズムは、他の最先端の正規化に基づく連続学習法と比較して好適に機能することを示した。
論文 参考訳(メタデータ) (2020-11-25T08:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。