論文の概要: Vector preference-based contextual bandits under distributional shifts
- arxiv url: http://arxiv.org/abs/2508.15966v1
- Date: Thu, 21 Aug 2025 21:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.190933
- Title: Vector preference-based contextual bandits under distributional shifts
- Title(参考訳): ベクトル選好に基づく分布変化下における文脈的帯域幅
- Authors: Apurv Shukla, P. R. Kumar,
- Abstract要約: 分散シフト下での文脈的バンディット学習について考察する。
本稿では,適応的分散化と楽観的排除に基づく政策を提案する。
- 参考スコア(独自算出の注目度): 8.19666118455293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider contextual bandit learning under distribution shift when reward vectors are ordered according to a given preference cone. We propose an adaptive-discretization and optimistic elimination based policy that self-tunes to the underlying distribution shift. To measure the performance of this policy, we introduce the notion of preference-based regret which measures the performance of a policy in terms of distance between Pareto fronts. We study the performance of this policy by establishing upper bounds on its regret under various assumptions on the nature of distribution shift. Our regret bounds generalize known results for the existing case of no distribution shift and vectorial reward settings, and scale gracefully with problem parameters in presence of distribution shifts.
- Abstract(参考訳): 我々は,所定の選好コーンに従って報酬ベクトルを順序付ける場合,分布シフト下での文脈的帯域学習について検討する。
本稿では,適応的分散化と楽観的排除に基づく政策を提案する。
本研究では,この政策の性能を評価するために,パレートフロント間の距離の観点から,政策のパフォーマンスを計測する嗜好に基づく後悔の概念を導入する。
本研究では,分布シフトの性質を前提とした様々な前提の下で,その後悔に対する上限を定め,この政策の性能について検討する。
我々の後悔境界は、分布シフトやベクトル的報酬設定のない既存の場合の既知の結果を一般化し、分布シフトの存在下で問題パラメータを適切にスケールする。
関連論文リスト
- Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Learning under random distributional shifts [0.0]
基底共変量空間の任意の変化を捉えるランダム分布シフトモデルのクラスを考える。
ハイブリッドアプローチは分散シフトの強さとプロキシ関係の強さに頑健であることを示す。
2つの高インパクト領域において、提案手法は平均二乗誤差を著しく低くする。
論文 参考訳(メタデータ) (2023-06-05T15:14:34Z) - Distributional Multi-Objective Decision Making [2.185694185279913]
本稿では,政策の回帰分布に関する新たな支配基準を,直接的に導入する。
本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-09T15:47:56Z) - Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax
Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。
提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文 参考訳(メタデータ) (2021-01-22T07:34:09Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。