論文の概要: Laplacian Kernelized Bandit
- arxiv url: http://arxiv.org/abs/2601.00461v1
- Date: Thu, 01 Jan 2026 20:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.460966
- Title: Laplacian Kernelized Bandit
- Title(参考訳): Laplacian Kernelized Bandit
- Authors: Shuang Wu, Arash A. Amini,
- Abstract要約: 本研究では,ユーザがグラフによって関連付けられているマルチユーザコンテキスト帯について検討し,その報酬関数は非線形挙動とグラフホモフィリーの両方を示す。
我々の研究は、構造化された探索のために、ラプラシア正規化をカーネル化された帯域で橋渡しする統一的で理論的に基礎づけられた実践的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 13.39205221620201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-user contextual bandits where users are related by a graph and their reward functions exhibit both non-linear behavior and graph homophily. We introduce a principled joint penalty for the collection of user reward functions $\{f_u\}$, combining a graph smoothness term based on RKHS distances with an individual roughness penalty. Our central contribution is proving that this penalty is equivalent to the squared norm within a single, unified \emph{multi-user RKHS}. We explicitly derive its reproducing kernel, which elegantly fuses the graph Laplacian with the base arm kernel. This unification allows us to reframe the problem as learning a single ''lifted'' function, enabling the design of principled algorithms, \texttt{LK-GP-UCB} and \texttt{LK-GP-TS}, that leverage Gaussian Process posteriors over this new kernel for exploration. We provide high-probability regret bounds that scale with an \emph{effective dimension} of the multi-user kernel, replacing dependencies on user count or ambient dimension. Empirically, our methods outperform strong linear and non-graph-aware baselines in non-linear settings and remain competitive even when the true rewards are linear. Our work delivers a unified, theoretically grounded, and practical framework that bridges Laplacian regularization with kernelized bandits for structured exploration.
- Abstract(参考訳): 本研究では,ユーザがグラフによって関連付けられているマルチユーザコンテキスト帯について検討し,その報酬関数は非線形挙動とグラフホモフィリーの両方を示す。
本稿では、RKHS距離に基づくグラフスムースネス項と、個々の粗さペナルティを組み合わせた、ユーザ報酬関数のコレクションに対する原則付き共同ペナルティについて紹介する。
我々の中心的な貢献は、このペナルティが単一の統一された 'emph{multi-user RKHS} 内の平方ノルムと同値であることを証明することである。
我々は、グラフラプラシアンをベースアームカーネルと優雅に融合させる再生カーネルを明示的に導出する。
この統一により、単一'リフト'関数の学習として問題を再設計し、この新しいカーネル上のガウス過程の後方を探索するために、原理化されたアルゴリズムである \texttt{LK-GP-UCB} と \texttt{LK-GP-TS} の設計を可能にする。
マルチユーザカーネルの「emph{ Effective dimension}」でスケールし、ユーザ数や環境次元に依存するような、高確率な後悔境界を提供する。
実験的に,本手法は非線形設定において強い線形および非グラフ認識ベースラインを上回り,真の報酬が線形である場合でも競争力を維持する。
我々の研究は、構造化された探索のために、ラプラシア正規化をカーネル化された帯域で橋渡しする統一的で理論的に基礎づけられた実践的なフレームワークを提供する。
関連論文リスト
- Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Fast Robust Kernel Regression through Sign Gradient Descent with Early Stopping [1.5229257192293204]
カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、データにおいて非線形であるが、モデルパラメータでは線形である線形リッジ回帰の一般化である。
我々は、KRRの目的関数の等価性を導入し、リッジペナルティを$ell_infty$と$ell_1$ペナルティに置き換える。
提案手法は精度を損なうことなく, 桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2023-06-29T10:29:29Z) - Graph Neural Network Bandits [89.31889875864599]
グラフ構造データ上で定義された報酬関数を用いた帯域最適化問題を考察する。
この設定の主な課題は、大きなドメインへのスケーリングと、多くのノードを持つグラフへのスケーリングである。
グラフニューラルネットワーク(GNN)を用いて報酬関数を推定できることを示す。
論文 参考訳(メタデータ) (2022-07-13T18:12:36Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Learning Sparse Graph with Minimax Concave Penalty under Gaussian Markov
Random Fields [51.07460861448716]
本稿では,データから学ぶための凸解析フレームワークを提案する。
三角凸分解はその上部に対応する変換によって保証されることを示す。
論文 参考訳(メタデータ) (2021-09-17T17:46:12Z) - Tight Second-Order Certificates for Randomized Smoothing [106.06908242424481]
また、ガウス的ランダムな滑らか化のための普遍曲率的境界が存在することを示す。
この新たな証明書の正確性を証明することに加えて、SoS証明書は実現可能であり、したがって厳密であることを示す。
論文 参考訳(メタデータ) (2020-10-20T18:03:45Z) - Early stopping and polynomial smoothing in regression with reproducing kernels [2.0411082897313984]
再生カーネルヒルベルト空間(RKHS)における反復学習アルゴリズムの早期停止問題について検討する。
本稿では,いわゆる最小不一致原理に基づく検証セットを使わずに早期停止を行うデータ駆動型ルールを提案する。
提案したルールは、異なるタイプのカーネル空間に対して、ミニマックス最適であることが証明されている。
論文 参考訳(メタデータ) (2020-07-14T05:27:18Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。