論文の概要: High-dimensional Nonparametric Contextual Bandit Problem
- arxiv url: http://arxiv.org/abs/2505.14102v1
- Date: Tue, 20 May 2025 09:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.954109
- Title: High-dimensional Nonparametric Contextual Bandit Problem
- Title(参考訳): 高次元非パラメトリックコンテキスト帯域問題
- Authors: Shogo Iwazaki, Junpei Komiyama, Masaaki Imaizumi,
- Abstract要約: カーネル化された文脈帯域幅は、線形文脈帯域幅問題を一般化する。
サンプル数まで次元が増大しても,非回帰学習は達成可能であることを示す。
Delta$の観点で、寛大な後悔の率を導き出す。
- 参考スコア(独自算出の注目度): 12.828728138651266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the kernelized contextual bandit problem with a large feature space. This problem involves $K$ arms, and the goal of the forecaster is to maximize the cumulative rewards through learning the relationship between the contexts and the rewards. It serves as a general framework for various decision-making scenarios, such as personalized online advertising and recommendation systems. Kernelized contextual bandits generalize the linear contextual bandit problem and offers a greater modeling flexibility. Existing methods, when applied to Gaussian kernels, yield a trivial bound of $O(T)$ when we consider $\Omega(\log T)$ feature dimensions. To address this, we introduce stochastic assumptions on the context distribution and show that no-regret learning is achievable even when the number of dimensions grows up to the number of samples. Furthermore, we analyze lenient regret, which allows a per-round regret of at most $\Delta > 0$. We derive the rate of lenient regret in terms of $\Delta$.
- Abstract(参考訳): 我々は、大きな特徴空間を持つカーネル化されたコンテキストバンドイット問題を考察する。
予測器の目標は、コンテキストと報酬の関係を学習することで累積報酬を最大化することである。
パーソナライズされたオンライン広告やレコメンデーションシステムなど、さまざまな意思決定シナリオの一般的なフレームワークとして機能する。
カーネル化されたコンテキスト帯域幅は、線形コンテキスト帯域幅問題を一般化し、よりモデリングの柔軟性を提供する。
既存の方法がガウス核に適用された場合、$O(T)$ の自明な境界は $Omega(\log T)$ である。
これを解決するために,文脈分布の確率的仮定を導入し,サンプル数まで次元の数が増大しても,非回帰学習が達成可能であることを示す。
さらに、我々は寛大な後悔を分析することで、少なくとも$\Delta > 0$の丸ごとの後悔を許容する。
Delta$の観点で、寛大な後悔の率を導き出す。
関連論文リスト
- Contextual Online Decision Making with Infinite-Dimensional Functional Regression [19.06054415343443]
コンテキストシーケンシャルな意思決定問題は、機械学習において重要な役割を果たす。
我々は、あらゆる文脈のオンライン意思決定問題に対処するための普遍的な許容可能なアルゴリズムフレームワークを提供する。
論文 参考訳(メタデータ) (2025-01-30T14:05:20Z) - Uncertainty of Joint Neural Contextual Bandit [0.41436032949434404]
本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。
パラメータ $alpha$ のチューニングは通常、その性質のため、実際は複雑である。
我々は, 統合神経コンテキストバンドモデルの不確実性$sigma$に関する理論的解析と実験的知見の両方を提供する。
論文 参考訳(メタデータ) (2024-06-04T17:38:24Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs [7.125769932993104]
リスク・逆条件下での線形ペイオフに対するコンテキスト多重武装バンディット問題について考察する。
各ラウンドにおいて、各アームのコンテキストが明らかにされ、意思決定者は1つのアームを選択して、対応する報酬を受け取ります。
解離モデルに対してトンプソンサンプリングアルゴリズムを適用し,提案アルゴリズムの変種に対する包括的後悔解析を行う。
論文 参考訳(メタデータ) (2022-06-24T18:48:35Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。