Fugu-MT 論文翻訳(概要): Versioned Late Materialization for Ultra-Long Sequence Training in Recommendation Systems at Scale

論文の概要: Versioned Late Materialization for Ultra-Long Sequence Training in Recommendation Systems at Scale

arxiv url: http://arxiv.org/abs/2604.24806v1
Date: Mon, 27 Apr 2026 06:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.510082
Title: Versioned Late Materialization for Ultra-Long Sequence Training in Recommendation Systems at Scale
Title（参考訳）: 大規模リコメンデーションシステムにおけるUltra-Long Sequence Trainingのためのバージョニング後期物質化
Authors: Liang Guo, Ge Song, Litao Deng, Jianhui Sun, Chufeng Hu, Lu Zhang, Zhen Ma, Shouwei Chen, Weiran Liu, Sarang Masti Sreeshylan, Xiaoxuan Meng,
Abstract要約: 現代のディープラーニング勧告モデル(DLRM)は、シーケンス長のスケーリング法則に従う。 Fat Row"パラダイムは、これらのシーケンスをトレーニングのすべての例にプリマテリアル化し、ストレージとI/Oウォールを作成します。本稿では、UIHを正規化不変層に一度保存することで、この冗長性を解消するエンバージョン遅延物質化パラダイムを提案する。
参考スコア（独自算出の注目度）: 12.736059967085025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern Deep Learning Recommendation Models (DLRMs) follow scaling laws with sequence length, driving the frontier toward ultra-long User Interaction History (UIH). However, the industry-standard "Fat Row" paradigm, which pre-materializes these sequences into every training example, creates a storage and I/O wall where data infrastructure usage exceeds GPU training capacity due to data redundancy that is amplified in multi-tenant environments where models with vastly different sequence length requirements share a union dataset. We present a \emph{versioned late materialization} paradigm that eliminates this redundancy by storing UIH once in a normalized, immutable tier and reconstructing sequences just-in-time during training via lightweight versioned pointers. The system ensures Online-to-Offline (O2O) consistency through a bifurcated protocol that prevents future leakage across both streaming and batch training, while a read-optimized immutable storage layer provides multi-dimensional projection pushdown for heterogeneous model tenants. Disaggregated data preprocessing with pipelined I/O prefetching and data-affinity optimizations masks the latency of training-time sequence reconstruction, keeping training throughput compute-bound by GPUs. Deployed on production DLRMs, the system reduces training data infrastructure resource usage while enabling aggressive sequence length scaling that delivers significant model quality gains, serving as the foundational data infrastructure for modern recommendation model architectures, including HSTU and ULTRA-HSTU.
Abstract（参考訳）: 現代のDeep Learning Recommendation Models(DLRM)は、シーケンス長のスケーリング法則に従い、超長期ユーザインタラクションヒストリー(UIH)へのフロンティアを駆動する。しかし、これらのシーケンスをトレーニングの例ごとにプリマテリアル化する業界標準の"Fat Row"パラダイムは、データインフラストラクチャの使用量がGPUトレーニング能力を超えたストレージとI/Oウォールを生成します。本稿では、UIHを正規化・不変層に一度保存し、軽量なバージョン付きポインタによるトレーニング中に、ジャスト・イン・タイムのシーケンスを再構築することで、この冗長性を解消する「emph{versioned late materialization」パラダイムを提案する。このシステムは、ストリーミングとバッチトレーニングの両方にわたる将来のリークを防止するための双方向プロトコルを通じて、オンラインからO2O(Online-to-Offline)の一貫性を保証する。パイプライン化されたI/Oプリフェッチとデータアフィニティ最適化によるデアグリゲーションデータ前処理は、トレーニング時間シーケンス再構築のレイテンシを隠蔽し、GPUによるトレーニングスループットの計算バウンドを維持する。プロダクションDLRM上にデプロイされたこのシステムは、HSTUやULTRA-HSTUといったモダンなレコメンデーションモデルアーキテクチャの基盤となるデータインフラストラクチャとして機能し、積極的なシーケンス長のスケーリングを可能にしながら、トレーニングデータインフラストラクチャリソース使用量を削減する。

関連論文リスト

Adaptive Structured Pruning of Convolutional Neural Networks for Time Series Classification [0.776514389034479]
畳み込み型TSCモデルのための完全に自動化された構造化プルーニングフレームワークである動的構造化プルーニング(DSP)を提案する。 LITETimeは平均58%,InceptionTimeアーキテクチャは75%であり,分類精度は高い。冗長性解析は、DSPがコンパクトで情報的な表現を生成することを確認し、スケーラブルで効率的な深部TSCデプロイメントのための実践的なパスを提供する。
論文参考訳（メタデータ） (2026-02-13T09:18:59Z)
Nimbus: A Unified Embodied Synthetic Data Generation Framework [51.55989844555466]
データボリュームと多様性のスケーリングは、インボディードインテリジェンスを一般化するために重要である。我々は、異種ナビゲーションと操作パイプラインを統合するために設計された統合合成データ生成フレームワークであるNimbusを紹介する。評価の結果,Nimbusは最適化されていないベースラインに比べてエンドツーエンドのスループットが2～3倍向上していることがわかった。
論文参考訳（メタデータ） (2026-01-29T09:27:31Z)
Streaming Operator Inference for Model Reduction of Large-Scale Dynamical Systems [0.2609784101826761]
本稿では,データストリームの逐次到着から縮小モデルを学習するStreaming OpInfを提案する。提案手法は,メモリ要求を99%以上削減し,次元を31,000倍以上削減しながら,バッチOpInfに匹敵する精度を実現する。
論文参考訳（メタデータ） (2026-01-17T20:46:47Z)
CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Generative Pretrained Hierarchical Transformer for Time Series Forecasting [3.739587363053192]
予測のための新しい生成事前学習型階層型トランスフォーマーアーキテクチャ,textbfGPHTを提案する。主流の自己教師付き事前学習モデルと教師付きモデルを用いて,8つのデータセット上で十分な実験を行う。その結果、GPHTは、従来の長期予測タスクにおいて、様々な微調整およびゼロ/フェーショット学習設定のベースラインモデルを上回ることを示した。
論文参考訳（メタデータ） (2024-02-26T11:54:54Z)
Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System [46.39662315849883]
本稿では,カリキュラム学習とメモリ駆動デコーダによる冗長性を緩和する新しいフレームワークであるCLMFormerを紹介する。 CLMFormerはTransformerベースのモデルを最大30%改善し、長距離予測の有効性を示している。
論文参考訳（メタデータ） (2022-07-16T04:05:15Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。