論文の概要: AIF: Asynchronous Inference Framework for Cost-Effective Pre-Ranking
- arxiv url: http://arxiv.org/abs/2511.12934v1
- Date: Mon, 17 Nov 2025 03:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.639555
- Title: AIF: Asynchronous Inference Framework for Cost-Effective Pre-Ranking
- Title(参考訳): AIF: コスト効果前処理のための非同期推論フレームワーク
- Authors: Zhi Kou, Xiang-Rong Sheng, Shuguang Han, Zhishan Zhao, Yueyao Cheng, Han Zhu, Jian Xu, Bo Zheng,
- Abstract要約: 産業レコメンデーションシステムでは、ディープニューラルネットワーク(DNN)に基づくプレグレードモデルは通常、シーケンシャルな実行フレームワークを採用する。
本稿では,対話に依存しないコンポーネントをリアルタイムの予測から切り離すコスト効率の高い計算アーキテクチャであるAsynchronous Inference Framework(AIF)を提案する。
フレームワークとモデルの両方を共同設計することで,計算コストと遅延コストを大幅に増加させることなく,優れたパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 12.3937519085512
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In industrial recommendation systems, pre-ranking models based on deep neural networks (DNNs) commonly adopt a sequential execution framework: feature fetching and model forward computation are triggered only after receiving candidates from the upstream retrieval stage. This design introduces inherent bottlenecks, including redundant computations of identical users/items and increased latency due to strictly sequential operations, which jointly constrain the model's capacity and system efficiency. To address these limitations, we propose the Asynchronous Inference Framework (AIF), a cost-effective computational architecture that decouples interaction-independent components, those operating within a single user or item, from real-time prediction. AIF reorganizes the model inference process by performing user-side computations in parallel with the retrieval stage and conducting item-side computations in a nearline manner. This means that interaction-independent components are calculated just once and completed before the real-time prediction phase of the pre-ranking stage. As a result, AIF enhances computational efficiency and reduces latency, freeing up resources to significantly improve the feature set and model architecture of interaction-independent components. Moreover, we delve into model design within the AIF framework, employing approximated methods for interaction-dependent components in online real-time predictions. By co-designing both the framework and the model, our solution achieves notable performance gains without significantly increasing computational and latency costs. This has enabled the successful deployment of AIF in the Taobao display advertising system.
- Abstract(参考訳): 産業レコメンデーションシステムでは、ディープニューラルネットワーク(DNN)に基づくプレグレードモデルでは、一般的にシーケンシャルな実行フレームワークが採用されている。
この設計では、同じユーザ/イテムの冗長な計算や厳密なシーケンシャルな操作による遅延の増加など、モデルのキャパシティとシステム効率を両立させる固有のボトルネックが導入されている。
これらの制約に対処するため,Asynchronous Inference Framework (AIF) を提案する。これは,対話に依存しないコンポーネント,すなわち単一ユーザやアイテム内で動作しているコンポーネントを,リアルタイムの予測から分離する,費用対効果の高い計算アーキテクチャである。
AIFは、ユーザ側計算を検索段階と並行して行い、アイテム側計算をほぼ直線的に行うことにより、モデル推論プロセスを再編成する。
これは、相互作用非依存のコンポーネントが1回だけ計算され、プレグレードステージのリアルタイム予測フェーズの前に完了することを意味する。
その結果、AIFは計算効率を高め、レイテンシを低減し、リソースを解放し、相互作用に依存しないコンポーネントの機能セットとモデルアーキテクチャを大幅に改善する。
さらに、オンラインリアルタイム予測におけるインタラクション依存コンポーネントの近似手法を用いて、AIFフレームワーク内のモデル設計について検討する。
フレームワークとモデルの両方を共同設計することで,計算コストと遅延コストを大幅に増大させることなく,優れた性能向上を実現している。
これにより、AIFのTaobaoディスプレイ広告システムへの展開が成功している。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - A Novel Collaborative Framework for Efficient Synchronization in Split Federated Learning over Wireless Networks [4.462403784684656]
我々は、デバイス間コラボレーションを通じてワークロードの再配布を再定義する、CSFL(Collaborative Split Federated Learning)と呼ばれる新しいフレームワークを提案する。
CSFLは、独自の前方伝播を完了した後に、未完成のボトルネックデバイスの層をシームレスに引き継ぐ効率的なデバイスを可能にする。
このコラボレーティブなプロセスは、D2D通信によってサポートされ、ネットワーク全体の同期進行を維持しながら、ボトルネックデバイスを早期にオフロードすることができる。
論文 参考訳(メタデータ) (2025-03-18T22:11:54Z) - Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [2.1990852305468533]
同期フェデレーションラーニング(FL)は、ストラグラー効果によりクライアント数に悪影響を及ぼす。
本研究では,非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために,モデリングと解析に頼っている。
特に,モデルパラメータの安定化を回避し,勾配推定誤差の最小化という,非同期FLの最適化のための基本的なトレードオフを特徴付ける。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。