論文の概要: Q-Regularized Generative Auto-Bidding: From Suboptimal Trajectories to Optimal Policies
- arxiv url: http://arxiv.org/abs/2601.02754v1
- Date: Tue, 06 Jan 2026 06:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.833244
- Title: Q-Regularized Generative Auto-Bidding: From Suboptimal Trajectories to Optimal Policies
- Title(参考訳): Q-regularized Generative Auto-Bidding:Suboptimal TrajectoriesからOptimal Policiesへ
- Authors: Mingming Zhang, Na Li, Zhuang Feiqing, Hongyang Zheng, Jiangbing Zhou, Wang Wuyin, Sheng-jie Sun, XiaoWei Chen, Junxiong Zhu, Lixin Zou, Chenliang Li,
- Abstract要約: Q-value regularized Generative Auto-bidding法であるQGAを提案する。
大規模な実世界のA/Bテストでは、QGAはAd GMVが3.27%増加し、Ad ROIが2.49%改善した。
- 参考スコア(独自算出の注目度): 27.96571937113551
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid development of e-commerce, auto-bidding has become a key asset in optimizing advertising performance under diverse advertiser environments. The current approaches focus on reinforcement learning (RL) and generative models. These efforts imitate offline historical behaviors by utilizing a complex structure with expensive hyperparameter tuning. The suboptimal trajectories further exacerbate the difficulty of policy learning. To address these challenges, we proposes QGA, a novel Q-value regularized Generative Auto-bidding method. In QGA, we propose to plug a Q-value regularization with double Q-learning strategy into the Decision Transformer backbone. This design enables joint optimization of policy imitation and action-value maximization, allowing the learned bidding policy to both leverage experience from the dataset and alleviate the adverse impact of the suboptimal trajectories. Furthermore, to safely explore the policy space beyond the data distribution, we propose a Q-value guided dual-exploration mechanism, in which the DT model is conditioned on multiple return-to-go targets and locally perturbed actions. This entire exploration process is dynamically guided by the aforementioned Q-value module, which provides principled evaluation for each candidate action. Experiments on public benchmarks and simulation environments demonstrate that QGA consistently achieves superior or highly competitive results compared to existing alternatives. Notably, in large-scale real-world A/B testing, QGA achieves a 3.27% increase in Ad GMV and a 2.49% improvement in Ad ROI.
- Abstract(参考訳): 電子商取引の急速な発展に伴い、多様な広告主環境下での広告パフォーマンスの最適化において、自動入札は重要な資産となっている。
現在のアプローチは強化学習(RL)と生成モデルに重点を置いている。
これらの取り組みは、高価なハイパーパラメータチューニングを備えた複雑な構造を利用することで、オフラインの歴史的な振る舞いを模倣する。
準最適軌道は、政策学習の困難をさらに悪化させる。
これらの課題に対処するため,新しいQ値正規化生成自動入札手法であるQGAを提案する。
QGAでは、Q値正規化を2つのQ-ラーニング戦略でプラグインし、決定変換器のバックボーンに挿入する。
この設計により、ポリシーの模倣と行動価値の最大化を共同で最適化することができ、学習された入札ポリシーはデータセットからの経験を活用し、最適下軌道の悪影響を軽減することができる。
さらに、データ分布を超えたポリシー空間を安全に探索するために、複数のリターン・ツー・ゴーターゲットと局所摂動動作にDTモデルを条件付けしたQ値誘導二重探索機構を提案する。
この探索プロセス全体は、上記のQ値モジュールによって動的に導かれる。
公開ベンチマークとシミュレーション環境の実験は、QGAが既存の代替よりも優れた、あるいは高い競争力を発揮することを示した。
特に、大規模な実世界のA/Bテストでは、QGAはAd GMVが3.27%増加し、Ad ROIが2.49%改善している。
関連論文リスト
- ORPR: An OR-Guided Pretrain-then-Reinforce Learning Model for Inventory Management [9.138155308817215]
プレトレイン-Then-Reinforce」アプローチは、AIの適応的認識をオペレーションリサーチの構造的厳密さと調和させる。
構造化OR論理で導かれる場合、軽量でドメインインフォームドモデルにより最先端の性能とロバストな転送性が得られることを示す。
論文 参考訳(メタデータ) (2025-12-22T03:39:43Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Automatic Policy Search using Population-Based Hyper-heuristics for the Integrated Procurement and Perishable Inventory Problem [3.4792548480344245]
我々は,このマルチイテム・マルチサプライヤ問題に対する2つの最適化戦略を比較するために,離散イベントシミュレーション環境を開発する。
12の異なる事例から得られた結果は、超ヒューリスティックなフレームワークが常に優れたポリシーを識別していることを示している。
論文 参考訳(メタデータ) (2025-11-02T01:27:52Z) - Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search [24.02739832976663]
自動入札は、広告主がパフォーマンスを改善するための重要なツールである。
近年の進歩により、AIGB(AI-Generated Bidding)は、通常のオフライン強化学習(RL)ベースの自動入札法と比較して優れた性能を発揮することが示されている。
生成計画とポリシー最適化を統合した新しい手法であるAIGB-Pearlを提案する。
論文 参考訳(メタデータ) (2025-09-19T12:30:26Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。