論文の概要: Learning an Optimal Assortment Policy under Observational Data
- arxiv url: http://arxiv.org/abs/2502.06777v1
- Date: Mon, 10 Feb 2025 18:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:40.525718
- Title: Learning an Optimal Assortment Policy under Observational Data
- Title(参考訳): 観測データに基づく最適配置政策の学習
- Authors: Yuxuan Han, Han Zhong, Miao Lu, Jose Blanchet, Zhengyuan Zhou,
- Abstract要約: 我々は,MNL(Multinomial Logit)モデルに基づくオフラインアソシエーション最適化の基本的問題について検討する。
本稿では、オフライン学習のパラダイムを考察し、効率的なオフライン配置最適化のための最小限のデータ要件について検討する。
- 参考スコア(独自算出の注目度): 21.077030287930306
- License:
- Abstract: We study the fundamental problem of offline assortment optimization under the Multinomial Logit (MNL) model, where sellers must determine the optimal subset of the products to offer based solely on historical customer choice data. While most existing approaches to learning-based assortment optimization focus on the online learning of the optimal assortment through repeated interactions with customers, such exploration can be costly or even impractical in many real-world settings. In this paper, we consider the offline learning paradigm and investigate the minimal data requirements for efficient offline assortment optimization. To this end, we introduce Pessimistic Rank-Breaking (PRB), an algorithm that combines rank-breaking with pessimistic estimation. We prove that PRB is nearly minimax optimal by establishing the tight suboptimality upper bound and a nearly matching lower bound. This further shows that "optimal item coverage" - where each item in the optimal assortment appears sufficiently often in the historical data - is both sufficient and necessary for efficient offline learning. This significantly relaxes the previous requirement of observing the complete optimal assortment in the data. Our results provide fundamental insights into the data requirements for offline assortment optimization under the MNL model.
- Abstract(参考訳): 我々は,MNL(Multinomial Logit)モデルに基づくオフラインアソシエーション最適化の基本的問題について検討する。
学習ベースのアソシエーション最適化に対する既存のアプローチは、顧客との反復的なインタラクションを通じて最適なアソシエーションのオンライン学習に重点を置いているが、そのような探索は、多くの現実の環境でコストがかかるか、あるいは現実的ではない可能性がある。
本稿では、オフライン学習のパラダイムを考察し、効率的なオフライン配置最適化のための最小限のデータ要件について検討する。
この目的のために、ランクブレーキングと悲観的推定を組み合わせたアルゴリズムである悲観的ランクブレーキング(PRB)を導入する。
我々は, PRB が極小値に近いことを証明し, 厳密な準最適上界とほぼ一致する下界を確立する。
さらに、"最適項目カバレッジ(Optimal item coverage)" – 過去のデータでは、各項目が十分に頻繁に現れる – が、効率的なオフライン学習に十分かつ必要であることを示している。
これにより、データの完全な最適配置を観察する以前の要件が大幅に緩和される。
本研究は,MNLモデルに基づくオフラインアソシエーション最適化のためのデータ要求に関する基礎的な知見を提供する。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Offline Model-Based Optimization via Policy-Guided Gradient Search [30.87992788876113]
オフライン強化学習問題として再構成することで、オフライン最適化のための新しい学習-探索-勾配の視点を導入する。
提案手法は,オフラインデータから生成されたサロゲートモデルに対して,適切なポリシーを明示的に学習する。
論文 参考訳(メタデータ) (2024-05-08T18:27:37Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。