論文の概要: MaRCA: Multi-Agent Reinforcement Learning for Dynamic Computation Allocation in Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2512.24325v1
- Date: Tue, 30 Dec 2025 16:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.42704
- Title: MaRCA: Multi-Agent Reinforcement Learning for Dynamic Computation Allocation in Large-Scale Recommender Systems
- Title(参考訳): MARCA:大規模リコメンダシステムにおける動的計算割当のためのマルチエージェント強化学習
- Authors: Wan Jiang, Xinyi Zang, Yudong Zhao, Yusi Zou, Yunfei Lu, Junbo Tong, Yang Liu, Ming Li, Jiani Shi, Xin Yang,
- Abstract要約: 提案手法は,レコメンデータシステムにおけるエンドツーエンドの計算資源割り当てのための強化学習フレームワークであるMARCAを提案する。
MaRCAは毎日数十億の広告リクエストを処理しており、既存の計算リソースを使用して16.67%の収益を上げている。
- 参考スコア(独自算出の注目度): 11.011695215804629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommender systems face significant computational challenges due to growing model complexity and traffic scale, making efficient computation allocation critical for maximizing business revenue. Existing approaches typically simplify multi-stage computation resource allocation, neglecting inter-stage dependencies, thus limiting global optimality. In this paper, we propose MaRCA, a multi-agent reinforcement learning framework for end-to-end computation resource allocation in large-scale recommender systems. MaRCA models the stages of a recommender system as cooperative agents, using Centralized Training with Decentralized Execution (CTDE) to optimize revenue under computation resource constraints. We introduce an AutoBucket TestBench for accurate computation cost estimation, and a Model Predictive Control (MPC)-based Revenue-Cost Balancer to proactively forecast traffic loads and adjust the revenue-cost trade-off accordingly. Since its end-to-end deployment in the advertising pipeline of a leading global e-commerce platform in November 2024, MaRCA has consistently handled hundreds of billions of ad requests per day and has delivered a 16.67% revenue uplift using existing computation resources.
- Abstract(参考訳): 現代のリコメンデータシステムは、モデル複雑性とトラフィックスケールの増加により、ビジネス収益の最大化のために効率的な計算割り当てが重要になる、重大な計算課題に直面している。
既存のアプローチは通常、多段階の計算リソース割り当てを単純化し、ステージ間の依存関係を無視し、グローバルな最適性を制限する。
本稿では,大規模レコメンデータシステムにおけるエンドツーエンドの計算資源割り当てのためのマルチエージェント強化学習フレームワークであるMARCAを提案する。
MaRCAは、計算資源制約下での収益を最適化するために、CTDE(Centralized Training with Decentralized Execution)を使用して、コラボレーティブエージェントとしてレコメンダシステムのステージをモデル化する。
本稿では,正確な計算コスト推定のためのAutoBucket TestBenchと,交通負荷を積極的に予測し,それに応じて収益-コストトレードオフを調整するモデル予測制御(MPC)ベースの収益-コストバランス器を紹介する。
2024年11月に主要なグローバルeコマースプラットフォームの広告パイプラインにエンドツーエンドで展開して以来、MARCAは毎日数十億件の広告要求を継続的に処理し、既存の計算リソースを使用して16.67%の収益を上げている。
関連論文リスト
- Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective [1.2515675707300356]
本研究では, モデルレス強化学習において, エージェント間結合における構造を有効活用するための体系的アプローチを提案する。
P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-10-11T00:29:55Z) - Trade in Minutes! Rationality-Driven Agentic System for Quantitative Financial Trading [57.28635022507172]
TiMiは、アーキテクチャ上、戦略開発を分単位のデプロイメントから切り離す合理性駆動型マルチエージェントシステムである。
本稿では,マクロパターンからマイクロカスタマイズ,トレーディングボット実装のための階層型プログラミング設計,数学的リフレクションによって駆動されるクローズドループ最適化までの2層解析パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-06T13:08:55Z) - Fair Resource Allocation for Fleet Intelligence [6.70517744733229]
私たちはFair-Synergyをオープンソースとして公開しました。
MNIST, CIFAR-10, CIFAR-100, BDD, GLUEなどのデータセット上で, BERT, VGG16, MobileNet, ResNetsなどの高度なビジョンと言語モデルを用いてFair-Synergyを評価した。
Fair-Synergyはマルチエージェント推論では25%,マルチエージェント学習では11%,標準ベンチマークでは25%を上回ります。
論文 参考訳(メタデータ) (2025-09-02T03:20:41Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。
本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文 参考訳(メタデータ) (2021-03-03T08:41:43Z) - Multi-Agent Deep Reinforcement Learning enabled Computation Resource
Allocation in a Vehicular Cloud Network [30.736512922808362]
本稿では,分散アドホック車載ネットワークにおける中央集権的なインフラサポートのない計算資源配分問題について検討する。
VCNにおける真の中央制御ユニットの欠如というジレンマを克服するため、車両上での割り当てを分散的に完了する。
論文 参考訳(メタデータ) (2020-08-14T17:02:24Z) - Information Freshness-Aware Task Offloading in Air-Ground Integrated
Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。
サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。
本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-15T21:32:43Z) - Distributed Resource Scheduling for Large-Scale MEC Systems: A
Multi-Agent Ensemble Deep Reinforcement Learning with Imitation Acceleration [44.40722828581203]
本稿では,各MECサーバにデプロイされた各エージェントのグローバル情報と分散意思決定に依存する集中型トレーニングを含む分散インテリジェントリソーススケジューリング(DIRS)フレームワークを提案する。
まず,マルチエージェント・アンサンブルを用いた分散強化学習(DRL)アーキテクチャを導入し,各エージェントの全体的なニューラルネットワーク構造を簡素化する。
第2に,提案したDIRSフレームワークの探索能力を高めるために,新しいL'evyフライトサーチにより,最適に近い状態対が得られた。
論文 参考訳(メタデータ) (2020-05-21T20:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。