論文の概要: On Pareto Optimality for the Multinomial Logistic Bandit
- arxiv url: http://arxiv.org/abs/2501.19277v1
- Date: Fri, 31 Jan 2025 16:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:27.728141
- Title: On Pareto Optimality for the Multinomial Logistic Bandit
- Title(参考訳): 多項ロジスティックバンドのパレート最適性について
- Authors: Jierui Zuo, Hanzhang Qin,
- Abstract要約: マルチノードロジット帯域問題に対処するための新しいオンライン学習アルゴリズムを提供する。
MNLモデルがもたらす課題にもかかわらず、我々は新しいアッパー信頼境界法(UCB)を開発した。
我々は,MNL-Bandit問題に対する後悔と推定誤差のトレードオフを特徴付ける理論的保証を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We provide a new online learning algorithm for tackling the Multinomial Logit Bandit (MNL-Bandit) problem. Despite the challenges posed by the combinatorial nature of the MNL model, we develop a novel Upper Confidence Bound (UCB)-based method that achieves Pareto optimality by balancing regret minimization and estimation error of the assortment revenues and the MNL parameters. We develop theoretical guarantees characterizing the tradeoff between regret and estimation error for the MNL-Bandit problem through information-theoretic bounds, and propose a modified UCB algorithm that incorporates forced exploration to improve parameter estimation accuracy while maintaining low regret. Our analysis sheds critical insights into how to optimally balance the collected revenues and the treatment estimation in dynamic assortment optimization.
- Abstract(参考訳): 本稿では,MNL-Bandit問題に対処するための新しいオンライン学習アルゴリズムを提案する。
MNLモデルとMNLパラメータの最小化と推定誤差のバランスをとることで、パレート最適性を実現する新しいアッパー信頼境界(UCB)ベースの手法を開発した。
我々は,MNL-Bandit問題における後悔と推定誤差のトレードオフを情報理論境界によって特徴付ける理論的保証を開発し,低後悔を維持しながらパラメータ推定精度を向上させるために強制探索を組み込んだ修正UPBアルゴリズムを提案する。
本分析では, 収集した収益の最適バランスと, 動的アソシエーション最適化における処理推定について, 重要な知見を提示する。
関連論文リスト
- Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment Effect [36.25361703897723]
強化学習における外部評価と強い関係を持つ因果推論における平均処理効果(ATE)の推定は中核的な問題である。
本稿では、ATEの推定を改善するために、処理割り当て確率を適応的に選択する問題を考察する。
論文 参考訳(メタデータ) (2024-11-21T17:38:49Z) - Learning Solutions of Stochastic Optimization Problems with Bayesian Neural Networks [4.202961704179733]
多くの実世界の設定において、これらのパラメータのいくつかは未知または不確かである。
最近の研究は、利用可能なコンテキスト特徴を用いて未知のパラメータの値を予測することに焦点を当てている。
本稿では、不確実性ニューラルネットワーク(BNN)をモデル化し、この不確実性を数学的解法に伝達する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:11:46Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Bayesian Optimisation for Constrained Problems [0.0]
本稿では,制約を扱える知恵グラディエント獲得関数の新たな変種を提案する。
我々は、このアルゴリズムを、他の4つの最先端制約されたベイズ最適化アルゴリズムと比較し、その優れた性能を実証する。
論文 参考訳(メタデータ) (2021-05-27T15:43:09Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Nonconvex sparse regularization for deep neural networks and its
optimality [1.9798034349981162]
ディープニューラルネットワーク(DNN)推定器は、回帰と分類問題に対して最適な収束率を得ることができる。
スパースDNNに対する新たなペナル化推定法を提案する。
スパースペンタライズされた推定器は、様々な非パラメトリック回帰問題に対する最小収束率を適応的に達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T07:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。