論文の概要: AHBid: An Adaptable Hierarchical Bidding Framework for Cross-Channel Advertising
- arxiv url: http://arxiv.org/abs/2602.22650v1
- Date: Thu, 26 Feb 2026 06:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.549635
- Title: AHBid: An Adaptable Hierarchical Bidding Framework for Cross-Channel Advertising
- Title(参考訳): AHBid: クロスチャネル広告のための適応型階層型入札フレームワーク
- Authors: Xinxin Yang, Yangyang Tang, Yikun Zhou, Yaolei Liu, Yun Li, Bo Yang,
- Abstract要約: AHBidは、生成計画とリアルタイム制御を統合するAdaptable Hierarchical Biddingフレームワークである。
大規模なオフラインデータセットとオンラインA/Bテストによる実験は、AHBidの有効性を実証している。
- 参考スコア(独自算出の注目度): 8.53485049764747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online advertising, the inherent complexity and dynamic nature of advertising environments necessitate the use of auto-bidding services to assist advertisers in bid optimization. This complexity is further compounded in multi-channel scenarios, where effective allocation of budgets and constraints across channels with distinct behavioral patterns becomes critical for optimizing return on investment. Current approaches predominantly rely on either optimization-based strategies or reinforcement learning techniques. However, optimization-based methods lack flexibility in adapting to dynamic market conditions, while reinforcement learning approaches often struggle to capture essential historical dependencies and observational patterns within the constraints of Markov Decision Process frameworks. To address these limitations, we propose AHBid, an Adaptable Hierarchical Bidding framework that integrates generative planning with real-time control. The framework employs a high-level generative planner based on diffusion models to dynamically allocate budgets and constraints by effectively capturing historical context and temporal patterns. We introduce a constraint enforcement mechanism to ensure compliance with specified constraints, along with a trajectory refinement mechanism that enhances adaptability to environmental changes through the utilization of historical data. The system further incorporates a control-based bidding algorithm that synergistically combines historical knowledge with real-time information, significantly improving both adaptability and operational efficacy. Extensive experiments conducted on large-scale offline datasets and through online A/B tests demonstrate the effectiveness of AHBid, yielding a 13.57% increase in overall return compared to existing baselines.
- Abstract(参考訳): オンライン広告において、広告環境の本質的な複雑さと動的な性質は、入札最適化において広告主を支援するために自動入札サービスを使用する必要がある。
この複雑さは、投資のリターンを最適化するために、異なる行動パターンを持つチャネル間の予算と制約を効果的に割り当てることが重要であるマルチチャネルシナリオでさらに複雑になる。
現在のアプローチは、最適化ベースの戦略か強化学習技術のいずれかに依存している。
しかし、最適化に基づく手法は動的な市場条件に適応する柔軟性に欠けており、強化学習アプローチはマルコフ決定プロセスフレームワークの制約の中で重要な歴史的依存関係や観察的パターンを捉えるのに苦労することが多い。
これらの制約に対処するために, 生成計画とリアルタイム制御を統合した適応型階層型入札フレームワークであるAHBidを提案する。
このフレームワークは、拡散モデルに基づく高レベルな生成プランナーを用いて、歴史的文脈と時間的パターンを効果的に捉え、予算と制約を動的に割り当てる。
本稿では, 歴史的データの利用により環境変化への適応性を高める軌道改良機構とともに, 特定制約の遵守を確保するための制約執行機構を導入する。
さらに、履歴知識とリアルタイム情報とを相乗的に組み合わせた制御ベースの入札アルゴリズムを導入し、適応性と運用効率を著しく改善する。
大規模なオフラインデータセットとオンラインA/Bテストによる大規模な実験は、AHBidの有効性を示し、既存のベースラインと比較して13.57%のリターンが得られた。
関連論文リスト
- Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling [39.98859285173431]
フレキシブルなジョブショップスケジューリング問題(FJSP)は、現実の運用シナリオと複雑で強い整合性のため、大きな注目を集めている。
現在の深部強化学習(DRL)に基づくFJSPのアプローチは主に建設的手法を採用している。
本稿では,異種グラフ表現を用いたメモリ拡張改善検索フレームワーク-MIStarを提案する。
論文 参考訳(メタデータ) (2026-03-03T10:43:01Z) - ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning [32.8666744273094]
textbfOnline textbfRollout textbfAdaptation, textbfADORA (textbfAdvantage textbfDynamics via textbfOnline textbfRollout textbfAdaptation)を導入する。
論文 参考訳(メタデータ) (2026-02-10T17:40:39Z) - DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs [21.30516760599435]
大規模言語モデルは、AIGBの有望な代替手段を提供する。
微粒な最適化に必要な数値精度は欠如している。
DARAは、意思決定プロセスを2段階に分解する新しい2段階のフレームワークである。
当社のアプローチは、予算制約下での累積広告価値において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-01-21T06:58:44Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search [24.02739832976663]
自動入札は、広告主がパフォーマンスを改善するための重要なツールである。
近年の進歩により、AIGB(AI-Generated Bidding)は、通常のオフライン強化学習(RL)ベースの自動入札法と比較して優れた性能を発揮することが示されている。
生成計画とポリシー最適化を統合した新しい手法であるAIGB-Pearlを提案する。
論文 参考訳(メタデータ) (2025-09-19T12:30:26Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。
2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-20T12:28:49Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Hierarchical Multi-agent Meta-Reinforcement Learning for Cross-channel Bidding [4.741091524027138]
リアルタイム入札(RTB)はオンライン広告エコシステムにおいて重要な役割を担っている。
従来の手法では、動的な予算配分問題を効果的に管理することはできない。
マルチチャネル入札最適化のための階層型マルチエージェント強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:26:30Z) - Memory-Enhanced Neural Solvers for Routing Problems [8.255381359612885]
本稿では、メモリを活用して推論時のニューラルソルバの探索を改善するアプローチであるMementOを提案する。
本研究は, ツリーサーチと政策段階の微調整よりも, 走行セールスマンとキャパシタント車両ルーティングの問題に有効性を示すものである。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOのスケーラビリティとデータ効率を検証した。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。