論文の概要: Generative Auto-Bidding with Unified Modeling and Exploration
- arxiv url: http://arxiv.org/abs/2605.19457v1
- Date: Tue, 19 May 2026 07:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.179158
- Title: Generative Auto-Bidding with Unified Modeling and Exploration
- Title(参考訳): 統一モデリングと探索によるジェネレーティブオートバイディング
- Authors: Mingming Zhang, Feiqing Zhuang, Na Li, Shengjie Sun, Xiaowei Chen, Junxiong Zhu, Fei Xiao, Keping Yang, Lixin Zou, Chenliang Li,
- Abstract要約: GUIDE(Generative Auto-Bidding with Unified Modeling and Exploration)は、方向性探索と安全なフォールバックメカニズムを統合するフレームワークである。
我々は、公開データセット、模擬オークション環境、および中国の主要な広告プラットフォームであるTaobaoへの大規模オンライン展開を通じて、広範な実験を行っている。
実世界の展開において、GUIDEは、+4.10%の広告GMV、+1.40%の広告クリック、+1.66%の広告コスト、+3.52%の広告ROIという顕著な利益を達成する。
- 参考スコア(独自算出の注目度): 32.49990588146739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated bidding is central to modern digital advertising. Early rule-based methods lacked adaptability, while subsequent Reinforcement Learning approaches modeled bidding as a Markov Decision Process but struggled with long-term dependencies. Recent generative models show promise, yet they lack explicit mechanisms to balance exploration and safety, relying solely on action perturbations or trajectory guidance without a safety fallback. This results in inefficient exploration and elevated financial risk for advertising platforms. To address this gap, we propose GUIDE (Generative Auto-Bidding with Unified Modeling and Exploration), a framework that synergistically integrates directed exploration with a safe fallback mechanism. GUIDE employs a Decision Transformer (DT) to jointly model historical bidding actions and environmental state transitions. A Q-value module guides the DT's exploration via regularization constraints, while an Inverse Dynamics Module (IDM) leverages DT-predicted future states to infer robust, behaviorally consistent actions as a safe policy fallback. The Q-value module then adaptively selects the final action between these two options, balancing exploration and safety. Together, these components form an integrated "explore-safeguard-select" pipeline that unifies efficiency and safety. We conduct extensive experiments on public datasets, in simulated auction environments, and through large-scale online deployment on Taobao, a leading Chinese advertising platform. Results show GUIDE consistently outperforms state-of-the-art baselines across all scenarios. In real-world deployment, GUIDE achieves notable gains: +4.10% ad GMV, +1.40% ad clicks, +1.66% ad cost, and +3.52% ad ROI, demonstrating its effectiveness and strong industrial applicability.
- Abstract(参考訳): 自動入札は現代のデジタル広告の中心である。
初期のルールベースの手法は適応性に欠けていたが、その後の強化学習アプローチはマルコフ決定プロセスとして入札をモデル化したが、長期的な依存関係に悩まされた。
最近の生成モデルは、将来性を示すが、探索と安全のバランスをとるための明確なメカニズムが欠如しており、安全上の欠点なしに、行動の摂動や軌道誘導にのみ依存している。
これにより、広告プラットフォームに対する非効率な探索と財務リスクが増大する。
このギャップに対処するため,GUIDE(Generative Auto-Bidding with Unified Modeling and Exploration)を提案する。
GUIDEは、歴史的入札行動と環境状態遷移を共同でモデル化するために、決定変換器(DT)を使用している。
Q値モジュールは、正規化制約によるDTの探索をガイドする一方、逆ダイナミクスモジュール(IDM)は、DTが予測する将来の状態を利用して、安全なポリシーのフォールバックとして、堅牢で行動的に一貫性のあるアクションを推論する。
次に、Q値モジュールは、探索と安全性のバランスをとる2つの選択肢間の最終動作を適応的に選択する。
これらのコンポーネントは統合された"Explore-safeguard-select"パイプラインを形成し、効率性と安全性を統一する。
我々は,公開データセット,模擬オークション環境,および中国の主要な広告プラットフォームであるTaobaoへの大規模オンライン展開を通じて,広範な実験を行った。
その結果、GUIDEはすべてのシナリオで最先端のベースラインを一貫して上回ります。
4.10%の広告GMV、+1.40%の広告クリック、+1.66%の広告コスト、+3.52%の広告ROIを達成し、その有効性と強い産業応用性を示している。
関連論文リスト
- ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving [19.081114003415863]
我々は,意味のある探索と密集した監視を実現するために,統合された理解・生成の枠組みを提案する。
我々は、高密度世界モデリングの目的として、将来のRGBと深度画像生成による軌道予測を強化した。
我々は、この探索信号を安全性の高い報酬に組み込んで、ポリシーを最適化する。
論文 参考訳(メタデータ) (2026-04-03T04:14:13Z) - RISE: Self-Improving Robot Policy with Compositional World Model [52.227523057681786]
我々は、想像力によるロボット強化学習のスケーラブルなフレームワークRISEを紹介する。
中心となるのは構成的世界モデルであり、制御可能なダイナミクスモデルを通じて多視点の未来を予測し、(ii)進捗値モデルを用いて想像結果を評価する。
これらのコンポーネントはクローズドループの自己改善パイプラインに統合され、虚構のロールアウトを継続的に生成し、利点を推定し、コストのかかる物理的相互作用なしに虚構空間のポリシーを更新する。
論文 参考訳(メタデータ) (2026-02-11T17:43:36Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Q-Regularized Generative Auto-Bidding: From Suboptimal Trajectories to Optimal Policies [27.96571937113551]
Q-value regularized Generative Auto-bidding法であるQGAを提案する。
大規模な実世界のA/Bテストでは、QGAはAd GMVが3.27%増加し、Ad ROIが2.49%改善した。
論文 参考訳(メタデータ) (2026-01-06T06:42:25Z) - SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion [9.051746879211764]
Self-Evolved Generative Bidding (SEGB)は、積極的に計画し、完全にオフラインで洗練するフレームワークである。
SEGBはまず、各入札をガイドするために、もっともらしい短水平状態の状態を合成し、エージェントに決定的かつダイナミックな監視を提供する。
そして、外部の介入なしに優れた戦略を反復的に発見するために、価値誘導された政策改善を行う。
論文 参考訳(メタデータ) (2025-12-31T09:05:59Z) - Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions [16.315158617837646]
この研究は、決定論的オークション環境における信頼性の高いオフ・ポリティ・アセスメント(OPE)のための、初めて実用的で検証されたフレームワークに貢献する。
提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。
AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-12-03T01:37:42Z) - AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration [58.05143960563826]
On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。
SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
論文 参考訳(メタデータ) (2025-09-23T17:54:47Z) - Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。
2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-20T12:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。