論文の概要: Episodic Contextual Bandits with Knapsacks under Conversion Models
- arxiv url: http://arxiv.org/abs/2507.06859v1
- Date: Wed, 09 Jul 2025 14:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.610314
- Title: Episodic Contextual Bandits with Knapsacks under Conversion Models
- Title(参考訳): コンバージョンモデルによるクナプサックを伴う韻律的文脈帯域
- Authors: Zitian Li, Wang Chi Cheung,
- Abstract要約: 本研究では,意思決定者 (DM) が反復エピソードにおける文脈的ビジット・ウィズ・クナプサック (BwK) インスタンスと対話するオンライン環境について検討する。
全てのエピソードは同じ潜時変換モデルを共有し、要求のコンテキストと割り当て決定に基づいてランダムな結果を管理する。
提案モデルでは, エピソード補充による資源の動的価格設定や, 開始予算の異なる繰り返しエピソードにおける最初の価格オークションなどの応用例を抽出する。
- 参考スコア(独自算出の注目度): 5.279257531335345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an online setting, where a decision maker (DM) interacts with contextual bandit-with-knapsack (BwK) instances in repeated episodes. These episodes start with different resource amounts, and the contexts' probability distributions are non-stationary in an episode. All episodes share the same latent conversion model, which governs the random outcome contingent upon a request's context and an allocation decision. Our model captures applications such as dynamic pricing on perishable resources with episodic replenishment, and first price auctions in repeated episodes with different starting budgets. We design an online algorithm that achieves a regret sub-linear in $T$, the number of episodes, assuming access to a \emph{confidence bound oracle} that achieves an $o(T)$-regret. Such an oracle is readily available from existing contextual bandit literature. We overcome the technical challenge with arbitrarily many possible contexts, which leads to a reinforcement learning problem with an unbounded state space. Our framework provides improved regret bounds in certain settings when the DM is provided with unlabeled feature data, which is novel to the contextual BwK literature.
- Abstract(参考訳): 本研究では,意思決定者 (DM) が反復エピソードにおける文脈的ビジット・ウィズ・クナプサック (BwK) インスタンスと対話するオンライン環境について検討する。
これらのエピソードは、異なるリソース量から始まり、エピソード内のコンテキストの確率分布は静止しない。
全てのエピソードは同じ潜時変換モデルを共有し、要求のコンテキストと割り当て決定に基づいてランダムな結果を管理する。
提案モデルでは, エピソード補充による資源の動的価格設定や, 開始予算の異なる繰り返しエピソードにおける最初の価格オークションなどの応用例を抽出する。
我々は、$o(T)$-regret を達成した \emph{confidence bound oracle} へのアクセスを前提として、エピソード数である$T$の後悔サブリニアを実現するオンラインアルゴリズムを設計する。
このような宣誓供述書は、既存の文脈的盗賊文学から容易に入手できる。
我々は、任意に多くの可能なコンテキストで技術的課題を克服し、非有界な状態空間を持つ強化学習問題に繋がる。
我々のフレームワークは、DMにラベルのない特徴データ(文脈的BwK文献に新しいもの)が提供されるとき、特定の設定における後悔の限界を改善する。
関連論文リスト
- High-dimensional Nonparametric Contextual Bandit Problem [12.828728138651266]
カーネル化された文脈帯域幅は、線形文脈帯域幅問題を一般化する。
サンプル数まで次元が増大しても,非回帰学習は達成可能であることを示す。
Delta$の観点で、寛大な後悔の率を導き出す。
論文 参考訳(メタデータ) (2025-05-20T09:10:39Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with
Application to Fairness [1.6741394365746018]
我々は,各ラウンドにおいてスカラー報酬が得られ,ベクトル値のコストがかかる問題であるknapsacks[CBwK]のコンテキスト的帯域幅問題を考える。
予測段階更新に基づく二元的戦略を導入し,多元対数項まで$sqrtT$の総コスト制約を扱えるようにした。
論文 参考訳(メタデータ) (2023-05-25T07:41:35Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Contextual Blocking Bandits [35.235375147227124]
我々は,多腕バンディット問題の新たな変種について検討し,各ステップごとに,腕の平均報酬を決定する独立したサンプルコンテキストをプレイヤーが観察する。
アームを再生することで(すべてのコンテキストにわたって)将来の時間ステップの固定および既知の回数をブロックする。
我々は、$mathcalO(log T)$-regret w.r.t.$alpha$regret戦略を$Tタイムステップで保証し、$Omega(log(T)$low boundと一致する UCB ベースのフル情報アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-03-06T20:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。