論文の概要: Interpretable Personalization via Policy Learning with Linear Decision
Boundaries
- arxiv url: http://arxiv.org/abs/2003.07545v4
- Date: Wed, 2 Nov 2022 22:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 21:14:18.522902
- Title: Interpretable Personalization via Policy Learning with Linear Decision
Boundaries
- Title(参考訳): 線形決定境界を用いた政策学習による解釈可能なパーソナライゼーション
- Authors: Zhaonan Qu, Isabella Qian, Zhengyuan Zhou
- Abstract要約: 商品・サービスの効果的なパーソナライズは、企業が収益を改善し競争力を維持するための中核事業となっている。
本稿では政策学習のレンズを通してパーソナライズ問題を考察する。
本稿では、線形決定境界を持つポリシーのクラスを提案し、因果推論のツールを用いた学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.817218449140338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of the digital economy and an explosion of available
information about consumers, effective personalization of goods and services
has become a core business focus for companies to improve revenues and maintain
a competitive edge. This paper studies the personalization problem through the
lens of policy learning, where the goal is to learn a decision-making rule (a
policy) that maps from consumer and product characteristics (features) to
recommendations (actions) in order to optimize outcomes (rewards). We focus on
using available historical data for offline learning with unknown data
collection procedures, where a key challenge is the non-random assignment of
recommendations. Moreover, in many business and medical applications,
interpretability of a policy is essential. We study the class of policies with
linear decision boundaries to ensure interpretability, and propose learning
algorithms using tools from causal inference to address unbalanced treatments.
We study several optimization schemes to solve the associated non-convex,
non-smooth optimization problem, and find that a Bayesian optimization
algorithm is effective. We test our algorithm with extensive simulation studies
and apply it to an anonymized online marketplace customer purchase dataset,
where the learned policy outputs a personalized discount recommendation based
on customer and product features in order to maximize gross merchandise value
(GMV) for sellers. Our learned policy improves upon the platform's baseline by
88.2\% in net sales revenue, while also providing informative insights on which
features are important for the decision-making process. Our findings suggest
that our proposed policy learning framework using tools from causal inference
and Bayesian optimization provides a promising practical approach to
interpretable personalization across a wide range of applications.
- Abstract(参考訳): デジタル経済の興隆と消費者に関する情報の爆発により、商品やサービスの効果的なパーソナライズが企業にとって、収益の改善と競争力を維持するための中核的なビジネス焦点となっている。
本稿では,消費者と製品の特徴(特徴)からレコメンデーション(行動)へマップし,成果を最適化する意思決定ルール(方針)を学習することを目的とした,政策学習のレンズを通してパーソナライズ問題を研究する。
課題は,非ランダムなレコメンデーションの割り当てが重要な課題である,未知のデータ収集手順を用いたオフライン学習に利用可能な履歴データを使うことである。
さらに、多くのビジネスおよび医療応用において、政策の解釈可能性が不可欠である。
線形決定境界を持つポリシーのクラスを解析し、因果推論による学習アルゴリズムを提案し、不均衡な治療に対処する。
本研究では,非凸,非滑らかな最適化問題の解法について検討し,ベイズ最適化アルゴリズムが有効であることを示す。
提案アルゴリズムを広範囲にわたるシミュレーション研究で検証し、匿名化されたオンラインマーケットプレイスの顧客購入データセットに適用し、学習ポリシーは顧客や製品の特徴に基づいてパーソナライズされた割引レコメンデーションを出力し、販売者にとっての商品価値(GMV)を最大化する。
学習した方針は、プラットフォームベースラインを88.2 %向上させ、意思決定プロセスにおいてどの機能が重要なのかについての洞察を提供する。
以上より,因果推論とベイズ最適化のツールを用いたポリシー学習フレームワークは,幅広いアプリケーションに適用可能なパーソナライゼーションに有望な実践的アプローチを提供することが示唆された。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - An explainable machine learning-based approach for analyzing customers'
online data to identify the importance of product attributes [0.6437284704257459]
本稿では,製品開発におけるデザインの包括的意味を抽出するゲーム理論機械学習(ML)手法を提案する。
提案手法をKaggleの実際のラップトップのデータセットに適用し,結果に基づいて設計上の意味を導出する。
論文 参考訳(メタデータ) (2024-02-03T20:50:48Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。