論文の概要: Learning to Infer User Hidden States for Online Sequential Advertising
- arxiv url: http://arxiv.org/abs/2009.01453v1
- Date: Thu, 3 Sep 2020 05:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:34:09.058187
- Title: Learning to Infer User Hidden States for Online Sequential Advertising
- Title(参考訳): オンライン系列広告のための隠れ状態の推測学習
- Authors: Zhaoqing Peng, Junqi Jin, Lan Luo, Yaodong Yang, Rui Luo, Jun Wang,
Weinan Zhang, Haiyang Xu, Miao Xu, Chuan Yu, Tiejian Luo, Han Li, Jian Xu,
Kun Gai
- Abstract要約: 本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。
解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。
- 参考スコア(独自算出の注目度): 52.169666997331724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To drive purchase in online advertising, it is of the advertiser's great
interest to optimize the sequential advertising strategy whose performance and
interpretability are both important. The lack of interpretability in existing
deep reinforcement learning methods makes it not easy to understand, diagnose
and further optimize the strategy. In this paper, we propose our Deep Intents
Sequential Advertising (DISA) method to address these issues. The key part of
interpretability is to understand a consumer's purchase intent which is,
however, unobservable (called hidden states). In this paper, we model this
intention as a latent variable and formulate the problem as a Partially
Observable Markov Decision Process (POMDP) where the underlying intents are
inferred based on the observable behaviors. Large-scale industrial offline and
online experiments demonstrate our method's superior performance over several
baselines. The inferred hidden states are analyzed, and the results prove the
rationality of our inference.
- Abstract(参考訳): オンライン広告の購入を促進するためには, 性能と解釈が重要である逐次広告戦略を最適化することが, 広告主の大きな関心事である。
既存の深層強化学習法における解釈可能性の欠如は、その戦略を理解し、診断し、さらに最適化することが容易ではない。
本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。
解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。
本稿では,この意図を潜伏変数としてモデル化し,その問題を可観測性のあるマルコフ決定過程 (POMDP) として定式化する。
大規模産業用オフラインおよびオンライン実験により,本手法は複数のベースラインに対して優れた性能を示す。
推定された隠れ状態は解析され、結果は推論の合理性を証明する。
関連論文リスト
- Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity [22.0059059325909]
本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーション領域で発生します。
本稿では,学習者の意思決定問題に対する情報的事前分布を確立するために,Expers-as-Priorsアルゴリズム(ExPerior)を提案する。
論文 参考訳(メタデータ) (2024-04-10T18:00:17Z) - Online Ad Procurement in Non-stationary Autobidding Worlds [10.871587311621974]
本稿では,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。
提案アルゴリズムは, 逆数, 逆数, 周期的, エルゴディックな手順により, 調達結果が生成されると, 多くの世界では, 後悔の度合いが低いことを示す。
論文 参考訳(メタデータ) (2023-07-10T00:41:08Z) - Adversarial Constrained Bidding via Minimax Regret Optimization with
Causality-Aware Reinforcement Learning [18.408964908248855]
既存の制限入札のアプローチは、典型的には列車と試験条件に依存している。
本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に対してその方針をメタ学習する環境とをインターリーブする,Minimax Regret Optimization (MiRO) 手法を提案する。
因果性認識強化学習(MiROCL)を用いたMIROは,従来の手法よりも30%以上優れていた。
論文 参考訳(メタデータ) (2023-06-12T13:31:58Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Targeted Advertising on Social Networks Using Online Variational Tensor
Regression [19.586412285513962]
我々は、オンラインターゲティング広告のための最初の文脈的盗賊フレームワークであると考えるものを提案する。
提案するフレームワークは,多モードテンソルの形で,任意の特徴ベクトルに対応するように設計されている。
提案したUCBアルゴリズムは,ベンチマークによる影響タスクの大幅な改善を実現することを実証的に確認する。
論文 参考訳(メタデータ) (2022-08-22T22:10:45Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。