論文の概要: LASER: An Efficient Target-Aware Segmented Attention Framework for End-to-End Long Sequence Modeling
- arxiv url: http://arxiv.org/abs/2602.11562v1
- Date: Thu, 12 Feb 2026 04:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.639144
- Title: LASER: An Efficient Target-Aware Segmented Attention Framework for End-to-End Long Sequence Modeling
- Title(参考訳): LASER: エンドツーエンドロングシーケンスモデリングのための効率的なターゲット認識セグメンテーションフレームワーク
- Authors: Tianhe Lin, Ziwei Xiong, Baoyuan Ou, Yingjie Qin, Lai Xu, Xiaocheng Zhong, Yao Hu, Zhiyong Wang, Tao Zhou, Yubin Xu, Di Wu,
- Abstract要約: 我々はXiaohongshu(RedNote)で開発・デプロイされたフルスタック最適化フレームワークLASERを紹介する。
システムの効率性: 長いユーザ履歴のための統合スキーマ対応サービスインフラストラクチャであるSeqVaultを紹介します。
アルゴリズム効率: 計算オーバーヘッドに対処するためのSTA(Segmented Target Attention)機構を提案する。
- 参考スコア(独自算出の注目度): 20.507605423606282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling ultra-long user behavior sequences is pivotal for capturing evolving and lifelong interests in modern recommendation systems. However, deploying such models in real-time industrial environments faces a strict "Latency Wall", constrained by two distinct bottlenecks: the high I/O latency of retrieving massive user histories and the quadratic computational complexity of standard attention mechanisms. To break these bottlenecks, we present LASER, a full-stack optimization framework developed and deployed at Xiaohongshu (RedNote). Our approach tackles the challenges through two complementary innovations: (1) System efficiency: We introduce SeqVault, a unified schema-aware serving infrastructure for long user histories. By implementing a hybrid DRAM-SSD indexing strategy, SeqVault reduces retrieval latency by 50% and CPU usage by 75%, ensuring millisecond-level access to full real-time and life-cycle user histories. (2) Algorithmic efficiency: We propose a Segmented Target Attention (STA) mechanism to address the computational overhead. Motivated by the inherent sparsity of user interests, STA employs a sigmoid-based gating strategy that acts as a silence mechanism to filter out noisy items. Subsequently, a lightweight Global Stacked Target Attention (GSTA) module refines these compressed segments to capture cross-segment dependencies without incurring high computational costs. This design performs effective sequence compression, reducing the complexity of long-sequence modeling while preserving critical signals. Extensive offline evaluations demonstrate that LASER consistently outperforms state-of-the-art baselines. In large-scale online A/B testing serving over 100 million daily active users, LASER achieved a 2.36% lift in ADVV and a 2.08% lift in revenue, demonstrating its scalability and significant commercial impact.
- Abstract(参考訳): 超長期のユーザ行動シーケンスをモデル化することは、現代のレコメンデーションシステムにおける進化と生涯の関心を捉える上で重要である。
しかし、そのようなモデルをリアルタイム産業環境にデプロイするには、巨大なユーザ履歴を取得するための高いI/Oレイテンシと、標準的な注意機構の2次計算複雑性の2つのボトルネックに制約された厳密な"レイテンシウォール"が直面する。
これらのボトルネックを解消するために,Xiaohongshu(RedNote)で開発されたフルスタック最適化フレームワークLASERを紹介した。
システム効率: 長いユーザ履歴のための統合スキーマ対応サービスインフラストラクチャであるSeqVaultを導入します。
ハイブリッドDRAM-SSDインデックス戦略を実装することで、SeqVaultは、検索遅延を50%削減し、CPU使用率を75%削減し、ミリ秒レベルの完全なリアルタイムおよびライフサイクルユーザ履歴へのアクセスを保証する。
2)アルゴリズム効率:計算オーバーヘッドに対処するセグメンテッド・ターゲット・アテンション(STA)機構を提案する。
STAは、ユーザー興味の空間性によって動機付けられ、ノイズのあるアイテムをフィルタリングするサイレントメカニズムとして機能するシグモイドベースのゲーティング戦略を採用している。
その後、軽量なGlobal Stacked Target Attention (GSTA)モジュールは、これらの圧縮セグメントを洗練し、高い計算コストを伴わずにクロスセグメント依存関係をキャプチャする。
この設計は効率的なシーケンス圧縮を行い、臨界信号を保持しながら長いシーケンスモデリングの複雑さを低減する。
大規模なオフライン評価は、LASERが一貫して最先端のベースラインを上回っていることを示している。
大規模なオンラインA/Bテストでは、1億人のアクティブユーザーを擁し、RAERはADVVの2.36%の昇給と収益の2.08%の昇給を達成し、そのスケーラビリティと商業的影響を実証した。
関連論文リスト
- Evolutionary Mapping of Neural Networks to Spatial Accelerators [64.13809409887254]
ニューロモルフィック加速器のための最初の進化的ハードウェア・イン・ザ・ループマッピングフレームワークを紹介する。
我々は,2次元メッシュに152コアを配置した空間加速器であるIntel Loihi 2のアプローチを評価した。
提案手法は,2つのスパース多層パーセプトロンネットワーク上でのデフォルトコアと比較して,最大35%のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2026-02-04T16:28:08Z) - SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration [23.86429472943524]
本稿では,視覚的オートレグレッシブ・アテンションの3つの特性,すなわち強いアテンション・シンク,大規模アクティベーション類似性,局所性の3つの特性を利用する,トレーニング不要なアクティベーション・フレームワークを提案する。
具体的には、後続の高分解能尺度のスパースアテンションパターンをスパース決定尺度から動的に予測し、効率的なインデックスマッピング機構を用いて自己相似スパースアテンションを構築する。
提案手法は、ほぼすべての高周波の詳細を保存しながら、$mathbf1.57times$ Speed-upを実現する。
論文 参考訳(メタデータ) (2026-02-04T09:34:06Z) - OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent [58.07447442040785]
私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。
結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
論文 参考訳(メタデータ) (2026-01-12T17:55:51Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders [23.70714095931094]
GPU効率の良いリコメンダのための長時間最適化されたtraNsformer。
オフラインのメトリクスとオンラインのA/Bテストでは、一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-07T13:54:26Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Climber: Toward Efficient Scaling Laws for Large Recommendation Models [8.970144942471425]
Climberは2つの相乗的コンポーネントからなる効率的なレコメンデーションフレームワークである。
提案モデルでは,(1)一定因子による時間的複雑性の低減を実現し,シーケンス長によるより効率的なスケーリングを実現するマルチスケールシーケンス抽出,(2)マルチシナリオパターンとマルチビヘイビアパターンに注意分布を適応させる動的温度変調,の2つのコアイノベーションを採用している。
Climberは、中国最大の音楽ストリーミングプラットフォームであるNetease Cloud Musicに、毎日数千万人のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2025-02-14T03:25:09Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。