Fugu-MT 論文翻訳(概要): AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization

論文の概要: AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization

arxiv url: http://arxiv.org/abs/2306.11971v3
Date: Tue, 14 Nov 2023 21:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 20:12:32.349499
Title: AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization
Title（参考訳）: AdCraft: 検索エンジンマーケティング最適化のための高度な強化学習ベンチマーク環境
Authors: Maziar Gomrokchi, Owen Levin, Jeffrey Roach, Jonah White
Abstract要約: 本稿では,Reinforcement Learning (RL)コミュニティのための新しいベンチマーク環境であるAdCraftを紹介する。この環境は、デジタルマーケティング技術である検索エンジンマーケティング(SEM)内の入札と予算のダイナミクスをシミュレートする。我々は,エージェントの収束と不定常性によるパフォーマンスに課される課題を実証する。
参考スコア（独自算出の注目度）: 0.6554326244334868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce AdCraft, a novel benchmark environment for the Reinforcement Learning (RL) community distinguished by its stochastic and non-stationary properties. The environment simulates bidding and budgeting dynamics within Search Engine Marketing (SEM), a digital marketing technique utilizing paid advertising to enhance the visibility of websites on search engine results pages (SERPs). The performance of SEM advertisement campaigns depends on several factors, including keyword selection, ad design, bid management, budget adjustments, and performance monitoring. Deep RL recently emerged as a potential strategy to optimize campaign profitability within the complex and dynamic landscape of SEM, but it requires substantial data, which may be costly or infeasible to acquire in practice. Our customizable environment enables practitioners to assess and enhance the robustness of RL algorithms pertinent to SEM bid and budget management without such costs. Through a series of experiments within the environment, we demonstrate the challenges imposed on agent convergence and performance by sparsity and non-stationarity. We hope these challenges further encourage discourse and development around effective strategies for managing real-world uncertainties.
Abstract（参考訳）: 本稿では,その確率的および非定常的特性を特徴とする強化学習(rl)コミュニティのための新しいベンチマーク環境adcraftを紹介する。この環境は、検索エンジンの検索結果ページ(serps)上のウェブサイトの可視性を高めるために有料広告を利用するデジタルマーケティング技術である検索エンジンマーケティング(sem)における入札と予算のダイナミクスをシミュレートする。 SEM広告キャンペーンのパフォーマンスは、キーワード選択、広告デザイン、入札管理、予算調整、パフォーマンス監視など、いくつかの要因に依存する。 deep rlは最近、semの複雑でダイナミックな状況の中で、キャンペーンの収益性を最適化するための潜在的な戦略として登場したが、実際に取得するには、かなりのデータを必要とする。当社のカスタマイズ可能な環境は,SEM入札や予算管理に係わるRLアルゴリズムの堅牢性を,そのようなコストを伴わずに評価・強化することができる。環境における一連の実験を通じて,エージェントの収束と非定常性によるパフォーマンスに課される課題を実証する。これらの課題は、現実世界の不確実性を管理する効果的な戦略に関する議論と開発をさらに促進することを願っている。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。 MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文参考訳（メタデータ） (2025-06-29T05:05:13Z)
Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文参考訳（メタデータ） (2025-05-31T05:32:12Z)
BAT: Benchmark for Auto-bidding Task [67.56067222427946]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-13T12:12:34Z)
Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。 2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-04-20T12:28:49Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Adaptive Budget Optimization for Multichannel Advertising Using Combinatorial Bandits [9.197038204851458]
本稿では,デジタル広告における予算配分分野への3つの重要な貢献を紹介する。まず,時間軸を延ばすマルチチャネル広告キャンペーンを模倣するシミュレーション環境を開発する。第2に,飽和平均関数と目標探索機構を利用して変化点検出を行う帯域幅予算配分戦略を提案する。
論文参考訳（メタデータ） (2025-02-05T06:29:52Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena [25.865825113847404]
オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
論文参考訳（メタデータ） (2023-10-09T14:22:09Z)
Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文参考訳（メタデータ） (2023-09-04T17:30:21Z)
Adversarial Constrained Bidding via Minimax Regret Optimization with Causality-Aware Reinforcement Learning [18.408964908248855]
既存の制限入札のアプローチは、典型的には列車と試験条件に依存している。本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に対してその方針をメタ学習する環境とをインターリーブする,Minimax Regret Optimization (MiRO) 手法を提案する。因果性認識強化学習(MiROCL)を用いたMIROは,従来の手法よりも30%以上優れていた。
論文参考訳（メタデータ） (2023-06-12T13:31:58Z)
Towards Revenue Maximization with Popular and Profitable Products [69.21810902381009]
企業マーケティングの共通のゴールは、様々な効果的なマーケティング戦略を活用することで、収益/利益を最大化することである。商品の収益性に関する信頼性のある情報を見つけることは、ほとんどの製品が一定の時期にピークを迎える傾向があるため困難である。本稿では、経済行動に基づく収益問題に対処し、ターゲットマーケティングのための0n-shelf Popular and most Profitable Products(OPPPs)を実行するための一般的な利益志向の枠組みを提案する。
論文参考訳（メタデータ） (2022-02-26T02:07:25Z)
A Unified Framework for Campaign Performance Forecasting in Online Display Advertising [9.005665883444902]
解釈可能で正確な結果により、広告主はキャンペーン基準を管理し、最適化することができる。新しいフレームワークは、様々な入札型の下で履歴ログのキャンペーンパフォーマンスを統一的なリプレイアルゴリズムで再現する。手法は、関連する予測指標間の混合キャリブレーションパターンをキャプチャして、推定結果を真にマッピングする。
論文参考訳（メタデータ） (2022-02-24T03:04:29Z)
Bid Optimization using Maximum Entropy Reinforcement Learning [0.3149883354098941]
本稿では、リアルタイム入札(RTB)における強化学習(RL)を用いた広告主の入札戦略の最適化に焦点をあてる。まず、広く受け入れられている線形入札関数を用いて、すべての印象のベース価格を計算し、RTBオークション環境から派生した可変調整係数で最適化する。最後に、公開データセットに関する実証的研究により、提案した入札戦略がベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2021-10-11T06:53:53Z)
Scaling up Search Engine Audits: Practical Insights for Algorithm Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。複数のデータ収集にまたがる研究インフラの性能を実証する。仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文参考訳（メタデータ） (2021-06-10T15:49:58Z)
Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文参考訳（メタデータ） (2021-05-21T21:56:12Z)
Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文参考訳（メタデータ） (2020-06-29T18:50:35Z)
MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文参考訳（メタデータ） (2020-02-18T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。