論文の概要: SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling
- arxiv url: http://arxiv.org/abs/2604.12110v1
- Date: Mon, 13 Apr 2026 22:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.148764
- Title: SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling
- Title(参考訳): SOLARIS: 推論スケーリングのための潜在bAsed表現の投機的オフロード
- Authors: Zikun Liu, Liang Luo, Qianru Li, Zhengyu Zhang, Wei Ling, Jingyi Shen, Zeliang Chen, Yaning Huang, Jingxian Huang, Abdallah Aboelela, Chonglin Sun, Feifan Gu, Fenggang Wu, Hang Qu, Huayu Li, Jill Pan, Kaidi Pei, Laming Chen, Longhao Jin, Qin Huang, Tongyi Tang, Varna Puvvada, Wenlin Chen, Xiaohan Wei, Xu Cao, Yantao Yao, Yuan Jin, Yunchen Pu, Yuxin Chen, Zijian Shen, Zhengkai Zhang, Dong Liang, Ellie Wen,
- Abstract要約: SOLARISは投機的復号化にインスパイアされた新しいフレームワークである。
それはMetaの広告システムに展開され、毎日何十億ものリクエストを処理している。
収益の0.67%がトップラインで、その効果を大規模に証明している。
- 参考スコア(独自算出の注目度): 33.44244041412049
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in recommendation scaling laws have led to foundation models of unprecedented complexity. While these models offer superior performance, their computational demands make real-time serving impractical, often forcing practitioners to rely on knowledge distillation-compromising serving quality for efficiency. To address this challenge, we present SOLARIS (Speculative Offloading of Latent-bAsed Representation for Inference Scaling), a novel framework inspired by speculative decoding. SOLARIS proactively precomputes user-item interaction embeddings by predicting which user-item pairs are likely to appear in future requests, and asynchronously generating their foundation model representations ahead of time. This approach decouples the costly foundation model inference from the latency-critical serving path, enabling real-time knowledge transfer from models previously considered too expensive for online use. Deployed across Meta's advertising system serving billions of daily requests, SOLARIS achieves 0.67% revenue-driving top-line metrics gain, demonstrating its effectiveness at scale.
- Abstract(参考訳): 近年のレコメンデーションスケーリング法の発展は、前例のない複雑さの基盤モデルに繋がった。
これらのモデルは優れた性能を提供するが、その計算的要求はリアルタイムの供用を非現実的にし、しばしば実践者は知識の蒸留に頼らざるを得ない。
この課題に対処するために、投機的デコーディングに触発された新しいフレームワークであるSOLARIS(Speculative Offloading of Latent-bAsed Representation for Inference Scaling)を提案する。
SOLARISは、将来のリクエストでどのユーザ-イムペアが現れるかを予測することによって、ユーザ-イムの相互作用の埋め込みを積極的にプリ計算し、その基礎モデル表現を前もって非同期に生成する。
このアプローチは、レイテンシクリティカルなサービスパスからのコストの高い基盤モデル推論を分離し、以前はオンライン利用には高すぎると考えられていたモデルからのリアルタイムな知識伝達を可能にする。
数十億の日次要求に対処するMetaの広告システムにデプロイされたSOLARISは、収益の0.67%をトップラインの指標として達成し、その規模での有効性を実証している。
関連論文リスト
- Climber-Pilot: A Non-Myopic Generative Recommendation Model Towards Better Instruction-Following [19.550149895505683]
Climber-Pilotは統合された生成検索フレームワークである。
TAMIP(Time-Aware Multi-Item Prediction)は、遺伝的検索において固有の近視を緩和する新しいトレーニングパラダイムである。
また,ビジネス制約をスパース・アテンションを介して生成プロセスに直接組み込むコンディションガイド付きスパース・アテンション(CGSA)を提案する。
論文 参考訳(メタデータ) (2026-02-14T03:46:06Z) - KAIROS: Unified Training for Universal Non-Autoregressive Time Series Forecasting [6.312575071507716]
KAIROSは非自己回帰時系列予測フレームワークである。
自動回帰アプローチとは異なり、KAIROSはエラーの蓄積を回避し、ジャスト・イン・タイム推論を実現する。
論文 参考訳(メタデータ) (2025-10-02T14:50:50Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning [15.103861901247125]
スパース環境のためのロバスト推論モデルを開発するための3段階フレームワークを提案する。
本フレームワークは,長短連鎖融合を用いた計画四元数を用いた効率的な推論をブートストラップする。
ALFWorld、ScienceWorld、WebShopの実験は、我々のアプローチがトークンの効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-05T02:56:58Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。