論文の概要: Batched Nonparametric Bandits via k-Nearest Neighbor UCB
- arxiv url: http://arxiv.org/abs/2505.10498v1
- Date: Thu, 15 May 2025 17:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.431413
- Title: Batched Nonparametric Bandits via k-Nearest Neighbor UCB
- Title(参考訳): k-Nearest Neighbor UCBによるバッチ非パラメトリック帯域
- Authors: Sakshi Arya,
- Abstract要約: バッチ化された非パラメトリックな文脈的包帯における逐次的意思決定について検討する。
適応的k-アネレスト近傍(k-NN)回帰と上位信頼境界(UCB)の原理を組み合わせた非パラメトリックアルゴリズムを提案する。
提案手法であるBaNk-UCBは完全に非パラメトリックであり,コンテキスト次元に適応し,実装が簡単である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study sequential decision-making in batched nonparametric contextual bandits, where actions are selected over a finite horizon divided into a small number of batches. Motivated by constraints in domains such as medicine and marketing -- where online feedback is limited -- we propose a nonparametric algorithm that combines adaptive k-nearest neighbor (k-NN) regression with the upper confidence bound (UCB) principle. Our method, BaNk-UCB, is fully nonparametric, adapts to the context dimension, and is simple to implement. Unlike prior work relying on parametric or binning-based estimators, BaNk-UCB uses local geometry to estimate rewards and adaptively balances exploration and exploitation. We provide near-optimal regret guarantees under standard Lipschitz smoothness and margin assumptions, using a theoretically motivated batch schedule that balances regret across batches and achieves minimax-optimal rates. Empirical evaluations on synthetic and real-world datasets demonstrate that BaNk-UCB consistently outperforms binning-based baselines.
- Abstract(参考訳): バッチ化された非パラメトリックな文脈的包帯において、有限地平線上での動作を少数のバッチに分割して選択するシーケンシャルな意思決定について検討する。
オンラインフィードバックが限られている医療やマーケティングなどの分野の制約によって動機づけられた我々は、適応的なk-nearest neighbor(k-NN)回帰と上位信頼境界(UCB)原理を組み合わせた非パラメトリックアルゴリズムを提案する。
提案手法であるBaNk-UCBは完全に非パラメトリックであり,コンテキスト次元に適応し,実装が簡単である。
BaNk-UCBは、パラメトリックまたはビンニングに基づく推定器に依存する以前の研究とは異なり、局所幾何学を用いて報酬を推定し、探索と搾取を適応的にバランスさせる。
リプシッツの標準的なスムースネスとマージン仮定に基づいて、バッチ間での後悔のバランスを保ち、最小マックス最適率を達成する理論的動機付けされたバッチスケジュールを用いて、ほぼ最適の後悔の保証を提供する。
合成および実世界のデータセットに関する実証的な評価は、BaNk-UCBがビンニングベースベースラインを一貫して上回っていることを示している。
関連論文リスト
- BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Likelihood-Free Adaptive Bayesian Inference via Nonparametric Distribution Matching [2.0319002824093015]
本稿では,従来のデータ空間の相違を回避したフレームワークであるAdaptive Bayesian Inference (ABI)を提案する。
ABIは、後続分布間のばらつきを測定する問題を、条件付き量子レグレッションタスクのトラクタブルシーケンスに変換する。
ABIはデータベースであるWasserstein, 要約ベースABC, 最先端の可能性のないシミュレータを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-05-07T17:50:14Z) - On Pareto Optimality for the Multinomial Logistic Bandit [0.0]
マルチノードロジット帯域問題に対処するための新しいオンライン学習アルゴリズムを提供する。
MNLモデルがもたらす課題にもかかわらず、我々は新しいアッパー信頼境界法(UCB)を開発した。
我々は,MNL-Bandit問題に対する後悔と推定誤差のトレードオフを特徴付ける理論的保証を開発する。
論文 参考訳(メタデータ) (2025-01-31T16:42:29Z) - Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Batched Nonparametric Contextual Bandits [21.031965676746776]
バッチ制約下での非パラメトリック文脈帯域について検討する。
最適な後悔を実現する新しいバッチ学習アルゴリズムを提案する。
我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が最適な後悔をもたらすことを示唆している。
論文 参考訳(メタデータ) (2024-02-27T18:06:20Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits [16.59103967569845]
本研究では,非定常環境におけるコンテキスト線形帯域に対するベイズ・最適周波数帯域上信頼境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理の独特な組み合わせは、動的設定における適応性と性能を高める。
論文 参考訳(メタデータ) (2023-07-07T13:29:07Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。