Fugu-MT 論文翻訳(概要): Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System

論文の概要: Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System

arxiv url: http://arxiv.org/abs/2407.02759v1
Date: Wed, 3 Jul 2024 02:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 15:54:34.710520
Title: Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System
Title（参考訳）: 広告推薦システム最適化のためのマルチエージェント強化学習に基づくマルチシナリオ統合
Authors: Yang Zhao, Chang Zhou, Jin Cao, Yi Zhao, Shaobo Liu, Chiyu Cheng, Xingchen Li,
Abstract要約: 本稿では,異なるシナリオを共通の目的の下で整列するマルチエージェント・リカレント決定性ポリシー勾配(MARDPG)アルゴリズムを提案する。その結果,クリックスルー率 (CTR) , コンバージョン率, 総売上など, 指標の大幅な改善が見られた。
参考スコア（独自算出の注目度）: 38.501423778989704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores multi-scenario optimization on large platforms using multi-agent reinforcement learning (MARL). We address this by treating scenarios like search, recommendation, and advertising as a cooperative, partially observable multi-agent decision problem. We introduce the Multi-Agent Recurrent Deterministic Policy Gradient (MARDPG) algorithm, which aligns different scenarios under a shared objective and allows for strategy communication to boost overall performance. Our results show marked improvements in metrics such as click-through rate (CTR), conversion rate, and total sales, confirming our method's efficacy in practical settings.
Abstract（参考訳）: 本稿では,マルチエージェント強化学習(MARL)を用いた大規模プラットフォーム上でのマルチシナリオ最適化について検討する。検索,レコメンデーション,広告といったシナリオを協調的かつ部分的に観察可能なマルチエージェント決定問題として扱うことで,この問題に対処する。マルチエージェント・リカレント・Deterministic Policy Gradient (MARDPG) アルゴリズムを導入し,異なるシナリオを共通の目的の下に整列させ,戦略コミュニケーションによる全体的な性能向上を実現する。その結果,クリックスルー率 (CTR) , コンバージョン率, 総販売数などの指標が有意に向上し, 実運用環境での有効性が確認された。

関連論文リスト

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment [29.617927643991877]
本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
論文参考訳（メタデータ） (2025-05-17T04:09:46Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文参考訳（メタデータ） (2024-10-10T16:45:28Z)
Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文参考訳（メタデータ） (2023-10-11T06:09:26Z)
Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文参考訳（メタデータ） (2023-09-26T07:38:19Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文参考訳（メタデータ） (2022-07-12T06:59:13Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文参考訳（メタデータ） (2021-04-21T09:28:28Z)
Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-15T17:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。