論文の概要: Exploration via Feature Perturbation in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2510.17390v2
- Date: Fri, 24 Oct 2025 08:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.212575
- Title: Exploration via Feature Perturbation in Contextual Bandits
- Title(参考訳): 文脈帯域における特徴摂動による探索
- Authors: Seouh-won Yi, Min-hwan Oh,
- Abstract要約: 特徴入力にランダム性を直接注入するコンテキスト的包帯に対する簡易な戦略を提案する。
興味深いことに、このアルゴリズムは一般化された線形文脈帯域に対して$tildemathcalO(dsqrtT)$ worst-case regret boundを達成している。
- 参考スコア(独自算出の注目度): 33.46701416812218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose feature perturbation, a simple yet effective exploration strategy for contextual bandits that injects randomness directly into feature inputs, instead of randomizing unknown parameters or adding noise to rewards. Remarkably, this algorithm achieves $\tilde{\mathcal{O}}(d\sqrt{T})$ worst-case regret bound for generalized linear contextual bandits, while avoiding the $\tilde{\mathcal{O}}(d^{3/2}\sqrt{T})$ regret typical of existing randomized bandit algorithms. Because our algorithm eschews parameter sampling, it is both computationally efficient and naturally extends to non-parametric or neural network models. We verify these advantages through empirical evaluations, demonstrating that feature perturbation not only surpasses existing methods but also unifies strong practical performance with the near-optimal regret guarantees.
- Abstract(参考訳): 未知のパラメータをランダムにしたり、報酬に雑音を加えるのではなく、特徴入力に直接ランダム性を注入する、文脈的包帯に対する単純かつ効果的な探索戦略である特徴摂動を提案する。
注目すべきは、このアルゴリズムは、一般化された文脈的包帯に対して$\tilde{\mathcal{O}}(d\sqrt{T})$最悪のケース後悔境界を達成し、既存のランダム化された包帯アルゴリズムの典型例である$\tilde{\mathcal{O}}(d^{3/2}\sqrt{T})$後悔を避けることである。
我々のアルゴリズムはパラメータサンプリングを省略するので、計算効率が良く、非パラメトリックモデルやニューラルネットワークモデルにも自然に拡張できる。
これらの利点を実証的評価により検証し、特徴摂動が既存手法を超越するだけでなく、ほぼ最適の後悔保証と強力な実用性能を統一することを証明する。
関連論文リスト
- Efficient Simple Regret Algorithms for Stochastic Contextual Bandits [32.5817931126341]
簡単な後悔の目的の下で,文脈的ロジスティックな包帯について検討する。
本稿では, 簡単な後悔を解くアルゴリズムを初めて提案する。
我々はまた、単純回帰設定に合わせた新しいトンプソンサンプリングの変種も導入する。
論文 参考訳(メタデータ) (2026-01-29T02:09:13Z) - Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions [8.48717433940334]
我々は、報酬関数が未知な一般化線形バンドイット(英語版)の新たな問題、いわゆるシングルインデックスバンドイット(英語版)を導入する。
まず,未知の報酬関数が単調に増加している場合について考察し,新しいアルゴリズムであるSTORとESTORを提案する。
次に,提案手法を高次元スパース設定に拡張し,空間指数で同じ後悔率が得られることを示す。
論文 参考訳(メタデータ) (2025-06-15T07:19:00Z) - Efficient kernelized bandit algorithms via exploration distributions [13.86858382375188]
我々はGP-Genericと呼ばれる計算効率のよい並列化帯域幅アルゴリズムのクラスを提案する。
提案アルゴリズムは, $tildeO(gamma_TsqrtT)$ regret bounds を実現するための,幅広い具体的なアルゴリズムを実現する。
論文 参考訳(メタデータ) (2025-06-11T18:23:43Z) - Perturb-and-Project: Differentially Private Similarities and Marginals [73.98880839337873]
差分プライバシーのための入力摂動フレームワークを再検討し、入力にノイズを付加する。
まず、ペアワイズ・コサイン類似性をプライベートにリリースするための新しい効率的なアルゴリズムを設計する。
我々は,$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-07T12:07:16Z) - Semi-Bandit Learning for Monotone Stochastic Optimization [16.921694787482213]
一般的なオンライン学習アルゴリズムは「モノトーン」問題のクラスのために開発されている。
当社のフレームワークは,預言不平等やPandoraのボックス,単一リソースの収益管理,ポスト価格など,いくつかの基本的な問題に適用しています。
論文 参考訳(メタデータ) (2023-12-24T07:46:37Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - Semi-Random Sparse Recovery in Nearly-Linear Time [37.61139884826181]
生成モデル変更に対する高速スパース回収アルゴリズムの脆性について検討する。
提案手法は,半ランダム生成モデルに基づく証明可能な保証付き高速反復法とは異なる。
半ランダムモデルに対して確実に堅牢なスパースリカバリの幾何学に適合した新しい反復法を設計する。
論文 参考訳(メタデータ) (2022-03-08T10:56:46Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Sparsity-Agnostic Lasso Bandit [27.383079108028074]
特徴ベクトルの次元$d$が潜在的に大きいような文脈的包帯問題を考える。
スパースブレイディットのための既存のアルゴリズムはすべて、スパーシティインデックス$s_$の値に関する事前知識を必要とする。
本稿では,スパーシティ指数$s_$の事前知識を必要としないアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-16T17:24:12Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。