論文の概要: Expert-Guided Diffusion Planner for Auto-bidding
- arxiv url: http://arxiv.org/abs/2508.08687v1
- Date: Tue, 12 Aug 2025 07:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.331428
- Title: Expert-Guided Diffusion Planner for Auto-bidding
- Title(参考訳): 自動車用エキスパートガイド拡散プランナ
- Authors: Yunshan Peng, Wenzheng Shu, Jiahao Sun, Yanxiang Zeng, Jinan Pang, Wentao Bai, Yunke Bai, Xialong Liu, Peng Jiang,
- Abstract要約: ジェネレーティブ入札は、ロバストな計画能力と一般化可能性のために、徐々に勢いを増している。
条件拡散モデリングアプローチは、オートバイディングの領域において有意義な可能性を証明している。
本稿では,専門家の軌道誘導に基づく新しい条件拡散モデリング手法とスキップステップサンプリング戦略を組み合わせることにより,生成効率を向上させることを提案する。
- 参考スコア(独自算出の注目度): 5.985307328455388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-bidding is extensively applied in advertising systems, serving a multitude of advertisers. Generative bidding is gradually gaining traction due to its robust planning capabilities and generalizability. In contrast to traditional reinforcement learning-based bidding, generative bidding does not rely on the Markov Decision Process (MDP) exhibiting superior planning capabilities in long-horizon scenarios. Conditional diffusion modeling approaches have demonstrated significant potential in the realm of auto-bidding. However, relying solely on return as the optimality condition is weak to guarantee the generation of genuinely optimal decision sequences, lacking personalized structural information. Moreover, diffusion models' t-step autoregressive generation mechanism inherently carries timeliness risks. To address these issues, we propose a novel conditional diffusion modeling method based on expert trajectory guidance combined with a skip-step sampling strategy to enhance generation efficiency. We have validated the effectiveness of this approach through extensive offline experiments and achieved statistically significant results in online A/B testing, achieving an increase of 11.29% in conversion and a 12.35% in revenue compared with the baseline.
- Abstract(参考訳): 自動入札は広告システムに広く適用され、多くの広告主に役立っている。
ジェネレーティブ入札は、ロバストな計画能力と一般化可能性のために、徐々に勢いを増している。
従来の強化学習に基づく入札とは対照的に、生成入札は長期のシナリオにおいて優れた計画能力を示すマルコフ決定プロセス(MDP)に依存しない。
条件拡散モデリングアプローチは、オートバイディングの領域において有意義な可能性を証明している。
しかし、最適性条件としてリターンのみに依存することは、パーソナライズされた構造情報を欠き、真に最適な決定シーケンスの生成を保証するために弱い。
さらに、拡散モデルのtステップ自己回帰生成機構は本質的にタイムラインのリスクを伴っている。
これらの問題に対処するために,専門家の軌道誘導に基づく新しい条件拡散モデリング手法とスキップステップサンプリング戦略を併用して生成効率を向上させる手法を提案する。
我々は、大規模なオフライン実験を通じてこのアプローチの有効性を検証し、オンラインA/Bテストで統計的に有意な結果を得た。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - AIGB: Generative Auto-bidding via Conditional Diffusion Modeling [26.283427427408085]
本稿では,AIGB(AI-Generated Bidding)について紹介する。
このパラダイムでは、入札生成のための条件付き拡散モデルであるDiffBidを提案する。
Alibabaの広告プラットフォーム上で、実世界のデータセットとオンラインA/Bテストで実施された実験は、DiffBidの有効性を実証している。
論文 参考訳(メタデータ) (2024-05-25T09:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。