論文の概要: Constraint-Aware Generative Auto-bidding via Pareto-Prioritized Regret Optimization
- arxiv url: http://arxiv.org/abs/2602.08261v1
- Date: Mon, 09 Feb 2026 04:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.064108
- Title: Constraint-Aware Generative Auto-bidding via Pareto-Prioritized Regret Optimization
- Title(参考訳): Pareto-Prioritized Regret Optimizationによる制約対応自動入札
- Authors: Binglin Wu, Yingyi Zhang, Xianneng Li, Ruyue Deng, Chuan Yue, Weiru Zhang, Xiaoyi Zeng,
- Abstract要約: PRO-Bidは2つの相乗的メカニズムに基づく制約対応な自動入札フレームワークである。
最先端のベースラインに比べて、制約満足度や価値獲得に優れています。
- 参考スコア(独自算出の注目度): 8.514099612407062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-bidding systems aim to maximize marketing value while satisfying strict efficiency constraints such as Target Cost-Per-Action (CPA). Although Decision Transformers provide powerful sequence modeling capabilities, applying them to this constrained setting encounters two challenges: 1) standard Return-to-Go conditioning causes state aliasing by neglecting the cost dimension, preventing precise resource pacing; and 2) standard regression forces the policy to mimic average historical behaviors, thereby limiting the capacity to optimize performance toward the constraint boundary. To address these challenges, we propose PRO-Bid, a constraint-aware generative auto-bidding framework based on two synergistic mechanisms: 1) Constraint-Decoupled Pareto Representation (CDPR) decomposes global constraints into recursive cost and value contexts to restore resource perception, while reweighting trajectories based on the Pareto frontier to focus on high-efficiency data; and 2) Counterfactual Regret Optimization (CRO) facilitates active improvement by utilizing a global outcome predictor to identify superior counterfactual actions. By treating these high-utility outcomes as weighted regression targets, the model transcends historical averages to approach the optimal constraint boundary. Extensive experiments on two public benchmarks and online A/B tests demonstrate that PRO-Bid achieves superior constraint satisfaction and value acquisition compared to state-of-the-art baselines.
- Abstract(参考訳): 自動入札システムは、ターゲットコスト・パー・アクション(CPA)のような厳格な効率制約を満たしつつ、マーケティング価値を最大化することを目的としている。
決定変換器は、強力なシーケンスモデリング機能を提供するが、この制約された設定にそれらを適用することは、2つの課題に直面する。
1)標準のReturn-to-Go条件は、コスト寸法を無視し、正確な資源配置を防止し、状態のエイリアスを引き起こす。
2) 標準回帰は,政策に平均的な歴史的行動の模倣を強制し,制約境界に対する性能の最適化能力を制限する。
これらの課題に対処するために,2つの相乗的メカニズムに基づく制約対応自動入札フレームワーク Pro-Bid を提案する。
1)制約付きパレート表現(CDPR)は、大域的制約を再帰的コストと価値コンテキストに分解し、パレートフロンティアに基づく軌道の重み付けを行い、高効率なデータに集中させる。
2) 対物回帰最適化(CRO)は, 結果予測器を利用して, 優れた対物行動を特定することにより, 積極的な改善を促進する。
これらの高ユーティリティな結果を重み付けされた回帰目標として扱うことにより、モデルは、最適制約境界に近づくために、過去の平均を超越する。
2つの公開ベンチマークとオンラインA/Bテストに関する大規模な実験は、PRO-Bidが最先端のベースラインよりも優れた制約満足度と価値獲得を達成することを示した。
関連論文リスト
- Constrained Group Relative Policy Optimization [18.3888203751956]
本稿では、制約付きポリシー最適化のためのラグランジアンによるGRPOの拡張であるConstrained GRPOを紹介する。
提案手法は, 最適推定における単純多成分処理が制約学習を損なう可能性があることを示す。
また,ロボットタスクにおける制約付きGRPOの評価を行い,タスク成功度を高めながら制約満足度を向上させる。
論文 参考訳(メタデータ) (2026-02-05T16:44:23Z) - GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL [21.30558932544297]
Online Safe Reinforcement Learning (OSRL) は、制約を満たしつつ意思決定における高いパフォーマンスを達成するための政策を学ぶことを目的としている。
生成モデル(GM)の強い能力に触発された最近の研究は、条件付き生成プロセスとしてOSRLにおける意思決定を再構成している。
本稿では,報酬と制約満足度を効果的にバランスしながら縫合能力を向上するアルゴリズムであるGal-Assisted Stitching (GAS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:44:48Z) - C2:Cross learning module enhanced decision transformer with Constraint-aware loss for auto-bidding [9.446373834962895]
Decision Transformer (DT)は、時間的依存関係をキャプチャすることで、生成的な自動入札を約束する。
DTは状態、アクション、戻り行シーケンス間の相互相関モデリングが不十分である。
C2は、DTを2つのコアイノベーションで強化する新しいフレームワークである。
論文 参考訳(メタデータ) (2026-01-28T05:08:02Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization [3.124884279860061]
本稿では,2段階適応型ロバスト最適化のための逆生成を行う解アルゴリズムAGROを紹介する。
AGROは、同時に敵対的かつ現実的な高次元の一致を生成する。
我々は、AGROが標準的なカラム・アンド・制約アルゴリズムを最大1.8%のプロダクション・ディストリビューション計画、最大11.6%の電力系統拡張で上回っていることを示す。
論文 参考訳(メタデータ) (2024-09-05T17:42:19Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。