論文の概要: Adversarial Constrained Bidding via Minimax Regret Optimization with
Causality-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.07106v1
- Date: Mon, 12 Jun 2023 13:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:30:12.355743
- Title: Adversarial Constrained Bidding via Minimax Regret Optimization with
Causality-Aware Reinforcement Learning
- Title(参考訳): 因果性を考慮した強化学習によるミニマックスレグレット最適化による対向拘束自転車
- Authors: Haozhe Wang, Chao Du, Panyan Fang, Li He, Liang Wang, Bo Zheng
- Abstract要約: 既存の制限入札のアプローチは、典型的には列車と試験条件に依存している。
本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に対してその方針をメタ学習する環境とをインターリーブする,Minimax Regret Optimization (MiRO) 手法を提案する。
因果性認識強化学習(MiROCL)を用いたMIROは,従来の手法よりも30%以上優れていた。
- 参考スコア(独自算出の注目度): 18.408964908248855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of the Internet has led to the emergence of online
advertising, driven by the mechanics of online auctions. In these repeated
auctions, software agents participate on behalf of aggregated advertisers to
optimize for their long-term utility. To fulfill the diverse demands, bidding
strategies are employed to optimize advertising objectives subject to different
spending constraints. Existing approaches on constrained bidding typically rely
on i.i.d. train and test conditions, which contradicts the adversarial nature
of online ad markets where different parties possess potentially conflicting
objectives. In this regard, we explore the problem of constrained bidding in
adversarial bidding environments, which assumes no knowledge about the
adversarial factors. Instead of relying on the i.i.d. assumption, our insight
is to align the train distribution of environments with the potential test
distribution meanwhile minimizing policy regret. Based on this insight, we
propose a practical Minimax Regret Optimization (MiRO) approach that
interleaves between a teacher finding adversarial environments for tutoring and
a learner meta-learning its policy over the given distribution of environments.
In addition, we pioneer to incorporate expert demonstrations for learning
bidding strategies. Through a causality-aware policy design, we improve upon
MiRO by distilling knowledge from the experts. Extensive experiments on both
industrial data and synthetic data show that our method, MiRO with
Causality-aware reinforcement Learning (MiROCL), outperforms prior methods by
over 30%.
- Abstract(参考訳): インターネットの普及は、オンラインオークションの仕組みによって引き起こされたオンライン広告の出現につながった。
これらの繰り返しのオークションにおいて、ソフトウェアエージェントは、長期的なユーティリティのために最適化するために集約された広告主を代表して参加する。
多様な要求を満たすために、異なる支出制約の対象となる広告目的を最適化するために入札戦略が用いられる。
既存の規制された入札に対するアプローチは、通常、訓練とテストの条件に依存しており、これは異なる当事者が競合する可能性のある目標を持つオンライン広告市場の敵意と矛盾する。
そこで,本研究では,敵対的入札環境における制約付き入札の問題を考察する。
i.d.仮定に頼るのではなく、我々の洞察は、環境の列車分布と潜在的なテスト分布を一致させることであり、一方で政策の後悔を最小限に抑えることである。
そこで本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に関する方針をメタラーニングする環境とをインターリーブするMinimax Regret Optimization (MiRO)アプローチを提案する。
さらに,入札戦略の学習に専門家によるデモンストレーションを取り入れた。
因果対応政策設計を通じて,専門家の知識を抽出し,MiROを改良する。
産業データと合成データの両方に関する大規模な実験により、我々の手法であるMiROとCausality-aware reinforcement Learning (MiROCL)が従来の手法より30%以上優れていたことが判明した。
関連論文リスト
- Maximizing the Success Probability of Policy Allocations in Online
Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2023-12-26T10:55:33Z) - Robust Representation Learning for Unified Online Top-K Recommendation [39.12191494863331]
統合されたオンライントップkレコメンデーションのための堅牢な表現学習を提案する。
提案手法は,データフェアネスを保証するため,エンティティ空間における統一モデリングを構築する。
提案手法は実業務シナリオに対応するために,オンラインでのデプロイに成功している。
論文 参考訳(メタデータ) (2023-10-24T03:42:20Z) - Online Ad Procurement in Non-stationary Autobidding Worlds [10.871587311621974]
本稿では,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。
提案アルゴリズムは, 逆数, 逆数, 周期的, エルゴディックな手順により, 調達結果が生成されると, 多くの世界では, 後悔の度合いが低いことを示す。
論文 参考訳(メタデータ) (2023-07-10T00:41:08Z) - Semantic Information Marketing in The Metaverse: A Learning-Based
Contract Theory Framework [68.8725783112254]
仮想サービスプロバイダ(VSP)によるインセンティブのメカニズム設計の問題に対処し,センサデータ販売にIoTデバイスを採用。
帯域幅が限られているため,センサIoTデバイスによる配信データを削減するためにセマンティック抽出アルゴリズムを提案する。
本稿では,新しい反復型契約設計を提案し,マルチエージェント強化学習(MARL)の新たな変種を用いて,モデル付き多次元契約問題の解法を提案する。
論文 参考訳(メタデータ) (2023-02-22T15:52:37Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Learning to Infer User Hidden States for Online Sequential Advertising [52.169666997331724]
本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。
解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。
論文 参考訳(メタデータ) (2020-09-03T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。