論文の概要: Expert-Guided Diffusion Planner for Auto-Bidding
- arxiv url: http://arxiv.org/abs/2508.08687v2
- Date: Sun, 24 Aug 2025 08:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.836824
- Title: Expert-Guided Diffusion Planner for Auto-Bidding
- Title(参考訳): 自動車用エキスパートガイド拡散プランナ
- Authors: Yunshan Peng, Wenzheng Shu, Jiahao Sun, Yanxiang Zeng, Jinan Pang, Wentao Bai, Yunke Bai, Xialong Liu, Peng Jiang,
- Abstract要約: 本研究では,専門家の軌道誘導とスキップステップサンプリング戦略を統合した条件付き拡散モデリング手法を導入し,生成効率を向上する。
この方法の有効性は、オンラインA/Bテストにおける総合的なオフライン実験と統計的に重要な結果によって実証され、変換は11.29%増加し、ベースラインに対する収益は12.36%増加した。
- 参考スコア(独自算出の注目度): 8.810433582977446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-bidding is widely used in advertising systems, serving a diverse range of advertisers. Generative bidding is increasingly gaining traction due to its strong planning capabilities and generalizability. Unlike traditional reinforcement learning-based bidding, generative bidding does not depend on the Markov Decision Process (MDP), thereby exhibiting superior planning performance in long-horizon scenarios. Conditional diffusion modeling approaches have shown significant promise in the field of auto-bidding. However, relying solely on return as the optimality criterion is insufficient to guarantee the generation of truly optimal decision sequences, as it lacks personalized structural information. Moreover, the auto-regressive generation mechanism of diffusion models inherently introduces timeliness risks. To address these challenges, we introduce a novel conditional diffusion modeling approach that integrates expert trajectory guidance with a skip-step sampling strategy to improve generation efficiency. The efficacy of this method has been demonstrated through comprehensive offline experiments and further substantiated by statistically significant outcomes in online A/B testing, yielding an 11.29% increase in conversions and a 12.36% growth in revenue relative to the baseline.
- Abstract(参考訳): 自動入札は広告システムで広く使われ、様々な広告主に利用されている。
ジェネレーティブ入札は、その強力な計画能力と一般化可能性のために、ますます勢いを増している。
従来の強化学習に基づく入札とは異なり、生成入札はマルコフ決定プロセス(MDP)に依存しないため、長期のシナリオにおいて優れた計画性能を示す。
条件拡散モデリングアプローチは、自動入札の分野で大きな可能性を示してきた。
しかし、最適性基準としてリターンのみに依存することは、パーソナライズされた構造情報がないため、真に最適な決定シーケンスの生成を保証するには不十分である。
さらに、拡散モデルの自己回帰生成機構は本質的にタイムラインのリスクを導入している。
これらの課題に対処するため、我々は専門家の軌道誘導とスキップステップサンプリング戦略を統合した条件付き拡散モデリング手法を導入し、生成効率を向上する。
この方法の有効性は、総合的なオフライン実験を通じて実証され、オンラインA/Bテストにおいて統計的に有意な結果によってさらに裏付けられ、変換が11.29%増加し、ベースラインに対する収益が12.36%増加した。
関連論文リスト
- AHBid: An Adaptable Hierarchical Bidding Framework for Cross-Channel Advertising [8.53485049764747]
AHBidは、生成計画とリアルタイム制御を統合するAdaptable Hierarchical Biddingフレームワークである。
大規模なオフラインデータセットとオンラインA/Bテストによる実験は、AHBidの有効性を実証している。
論文 参考訳(メタデータ) (2026-02-26T06:07:28Z) - SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion [9.051746879211764]
Self-Evolved Generative Bidding (SEGB)は、積極的に計画し、完全にオフラインで洗練するフレームワークである。
SEGBはまず、各入札をガイドするために、もっともらしい短水平状態の状態を合成し、エージェントに決定的かつダイナミックな監視を提供する。
そして、外部の介入なしに優れた戦略を反復的に発見するために、価値誘導された政策改善を行う。
論文 参考訳(メタデータ) (2025-12-31T09:05:59Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Generative Large-Scale Pre-trained Models for Automated Ad Bidding Optimization [5.460538555236247]
GRAD(Generative Reward-driven Ad-bidding with Mixture-of-Experts)を提案する。
GRADはプラットフォーム収益を大幅に向上させ、現代の広告主の進化的かつ多様な要求に対処する上での有効性を強調した。
論文 参考訳(メタデータ) (2025-08-04T02:46:18Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。
政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。
我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文 参考訳(メタデータ) (2025-03-26T01:07:35Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - AIGB: Generative Auto-bidding via Conditional Diffusion Modeling [26.283427427408085]
本稿では,AIGB(AI-Generated Bidding)について紹介する。
このパラダイムでは、入札生成のための条件付き拡散モデルであるDiffBidを提案する。
Alibabaの広告プラットフォーム上で、実世界のデータセットとオンラインA/Bテストで実施された実験は、DiffBidの有効性を実証している。
論文 参考訳(メタデータ) (2024-05-25T09:21:43Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。
我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文 参考訳(メタデータ) (2023-05-31T19:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。