論文の概要: PASTO: Strategic Parameter Optimization in Recommendation Systems --
Probabilistic is Better than Deterministic
- arxiv url: http://arxiv.org/abs/2108.09076v1
- Date: Fri, 20 Aug 2021 09:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 20:58:36.549616
- Title: PASTO: Strategic Parameter Optimization in Recommendation Systems --
Probabilistic is Better than Deterministic
- Title(参考訳): PASTO:レコメンデーションシステムにおける戦略的パラメータ最適化 -確率は決定論的よりも優れている
- Authors: Weicong Ding, Hanlin Tang, Jingshuo Feng, Lei Yuan, Sen Yang, Guangxu
Yang, Jie Zheng, Jing Wang, Qiang Su, Dong Zheng, Xuezhong Qiu, Yongqi Liu,
Yuxuan Chen, Yang Liu, Chao Song, Dongying Kong, Kai Ren, Peng Jiang, Qiao
Lian, Ji Liu
- Abstract要約: 確率論的戦略パラメータ体系は, 単一の決定論的パラメータを求める標準的手法と比較して, より優れた価値が得られることを示す。
私たちのアプローチは、数億人の日々のユーザーを持つ人気のあるソーシャルネットワークプラットフォームに適用されます。
- 参考スコア(独自算出の注目度): 33.174973495620215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world recommendation systems often consist of two phases. In the first
phase, multiple predictive models produce the probability of different
immediate user actions. In the second phase, these predictions are aggregated
according to a set of 'strategic parameters' to meet a diverse set of business
goals, such as longer user engagement, higher revenue potential, or more
community/network interactions. In addition to building accurate predictive
models, it is also crucial to optimize this set of 'strategic parameters' so
that primary goals are optimized while secondary guardrails are not hurt. In
this setting with multiple and constrained goals, this paper discovers that a
probabilistic strategic parameter regime can achieve better value compared to
the standard regime of finding a single deterministic parameter. The new
probabilistic regime is to learn the best distribution over strategic parameter
choices and sample one strategic parameter from the distribution when each user
visits the platform. To pursue the optimal probabilistic solution, we formulate
the problem into a stochastic compositional optimization problem, in which the
unbiased stochastic gradient is unavailable. Our approach is applied in a
popular social network platform with hundreds of millions of daily users and
achieves +0.22% lift of user engagement in a recommendation task and +1.7% lift
in revenue in an advertising optimization scenario comparing to using the best
deterministic parameter strategy.
- Abstract(参考訳): 現実世界のレコメンデーションシステムは2つのフェーズから構成されることが多い。
第1フェーズでは、複数の予測モデルが、異なる即時ユーザアクションの確率を生成する。
第2フェーズでは、これらの予測は一連の"戦略パラメータ"に従って集約され、より長いユーザのエンゲージメント、収益の可能性の向上、コミュニティ/ネットワーク間インタラクションなど、さまざまなビジネス目標のセットに適合する。
正確な予測モデルの構築に加えて、この一連の「戦略パラメータ」を最適化し、一次目標を最適化し、二次ガードレールが損傷を受けないようにすることも重要である。
本研究は,複数の制約付き目標を持つ場合において,確率的戦略パラメータレジームが1つの決定論的パラメータを見つける標準的なレジームよりも優れた価値を得られることを発見した。
新しい確率的体系は、戦略パラメータの選択よりも最適な分布を学習し、各ユーザがプラットフォームを訪れたときに、その分布から1つの戦略パラメータをサンプリングすることである。
最適確率解を追求するために,不偏確率勾配が利用できない確率的構成最適化問題へと問題を定式化する。
当社のアプローチは、数億人の日々のユーザを抱える人気のあるソーシャルネットワークプラットフォームに適用され、推奨タスクにおけるユーザエンゲージメントの+0.22%、最適な決定論的パラメータ戦略を用いた広告最適化シナリオにおける収益の+1.7%を達成する。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives [24.11353445650682]
優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,SPIおよびSASI戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T19:53:08Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Improving Hyperparameter Optimization by Planning Ahead [3.8673630752805432]
本稿では,モデルに基づく強化学習の文脈内で定義された新しい伝達学習手法を提案する。
本稿では,シンプルなルックアヘッド戦略をポリシーとして用いたモデル予測制御法を提案する。
最新のHPOアルゴリズムと比較した3つのメタデータセット実験により,提案手法が全ベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2021-10-15T11:46:14Z) - Approximate Bayesian Optimisation for Neural Networks [6.921210544516486]
モデル選択の重要性を強調するために、機械学習アルゴリズムを自動化するための一連の作業が行われた。
理想主義的な方法で解析的トラクタビリティと計算可能性を解決する必要性は、効率と適用性を確保することを可能にしている。
論文 参考訳(メタデータ) (2021-08-27T19:03:32Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。