論文の概要: Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search
- arxiv url: http://arxiv.org/abs/2509.15927v1
- Date: Fri, 19 Sep 2025 12:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.159026
- Title: Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search
- Title(参考訳): オフラインリワード評価とポリシー検索によるジェネレーティブオートバイディングの強化
- Authors: Zhiyu Mou, Yiqin Lv, Miao Xu, Cheems Wang, Yixiu Mao, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng,
- Abstract要約: 自動入札は、広告主が広告パフォーマンスを高めるために不可欠なツールだ。
近年の進歩により、AIGB(AI-Generated Bidding)は、通常のオフライン強化学習(RL)ベースの自動入札手法と比較して、優れた、安定したパフォーマンスを実現することが示されている。
生成計画とポリシー最適化を統合した新しい手法であるAIGB-Pearlを提案する。
- 参考スコア(独自算出の注目度): 22.219881705359825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-bidding is an essential tool for advertisers to enhance their advertising performance. Recent progress has shown that AI-Generated Bidding (AIGB), which formulates the auto-bidding as a trajectory generation task and trains a conditional diffusion-based planner on offline data, achieves superior and stable performance compared to typical offline reinforcement learning (RL)-based auto-bidding methods. However, existing AIGB methods still encounter a performance bottleneck due to their neglect of fine-grained generation quality evaluation and inability to explore beyond static datasets. To address this, we propose AIGB-Pearl (\emph{Planning with EvAluator via RL}), a novel method that integrates generative planning and policy optimization. The key to AIGB-Pearl is to construct a non-bootstrapped \emph{trajectory evaluator} to assign rewards and guide policy search, enabling the planner to optimize its generation quality iteratively through interaction. Furthermore, to enhance trajectory evaluator accuracy in offline settings, we incorporate three key techniques: (i) a Large Language Model (LLM)-based architecture for better representational capacity, (ii) hybrid point-wise and pair-wise losses for better score learning, and (iii) adaptive integration of expert feedback for better generalization ability. Extensive experiments on both simulated and real-world advertising systems demonstrate the state-of-the-art performance of our approach.
- Abstract(参考訳): 自動入札は、広告主が広告パフォーマンスを高めるために不可欠なツールだ。
近年、AIGB(AI-Generated Bidding)は、自動入札を軌道生成タスクとして定式化し、オフラインデータ上で条件付き拡散ベースのプランナーを訓練し、通常のオフライン強化学習(RL)ベースの自動入札手法と比較して、優れた、安定したパフォーマンスを達成することが示されている。
しかし、既存のAIGBメソッドは、詳細な生成品質評価を無視し、静的データセットを超えて探索できないため、パフォーマンス上のボトルネックに直面している。
そこで我々は,生成計画とポリシー最適化を統合した新しい手法であるAIGB-Pearl (\emph{Planning with EvAluator via RL})を提案する。
AIGB-Pearlの鍵は、報酬を割り当て、ポリシー検索を導くために、非ブートストラップ付き \emph{trajectory evaluator} を構築することである。
さらに,オフライン環境での軌道評価精度を高めるために,3つの重要な手法を取り入れた。
(i)表現能力を向上させるLarge Language Model(LLM)ベースのアーキテクチャ。
(II)より良いスコア学習のためのハイブリッドポイントワイドとペアワイドの損失
三 専門家フィードバックの適応的な統合により、より良い一般化能力を得る。
シミュレーションと実世界の広告システムに関する大規模な実験は、我々のアプローチの最先端性能を実証している。
関連論文リスト
- IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning [13.655904209137006]
オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
論文 参考訳(メタデータ) (2026-03-04T17:05:39Z) - SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion [9.051746879211764]
Self-Evolved Generative Bidding (SEGB)は、積極的に計画し、完全にオフラインで洗練するフレームワークである。
SEGBはまず、各入札をガイドするために、もっともらしい短水平状態の状態を合成し、エージェントに決定的かつダイナミックな監視を提供する。
そして、外部の介入なしに優れた戦略を反復的に発見するために、価値誘導された政策改善を行う。
論文 参考訳(メタデータ) (2025-12-31T09:05:59Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。
2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-20T12:28:49Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [9.181158786602085]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding [16.556934508295456]
オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。
安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションでトレーニングされており、オンライン環境にデプロイするとパフォーマンスが低下する。
本稿では,反復的オフラインRLのための新しいデータ収集・データ利用手法であるTrajectory-wise Exploration and Exploitation (TEE)を提案する。
論文 参考訳(メタデータ) (2024-02-23T05:20:23Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。