論文の概要: Contextual Online Decision Making with Infinite-Dimensional Functional Regression
- arxiv url: http://arxiv.org/abs/2501.18359v1
- Date: Thu, 30 Jan 2025 14:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:06.249349
- Title: Contextual Online Decision Making with Infinite-Dimensional Functional Regression
- Title(参考訳): 無限次元機能回帰を用いた文脈オンライン意思決定
- Authors: Haichen Hu, Rui Ai, Stephen Bates, David Simchi-Levi,
- Abstract要約: コンテキストシーケンシャルな意思決定問題は、機械学習において重要な役割を果たす。
我々は、あらゆる文脈のオンライン意思決定問題に対処するための普遍的な許容可能なアルゴリズムフレームワークを提供する。
- 参考スコア(独自算出の注目度): 19.06054415343443
- License:
- Abstract: Contextual sequential decision-making problems play a crucial role in machine learning, encompassing a wide range of downstream applications such as bandits, sequential hypothesis testing and online risk control. These applications often require different statistical measures, including expectation, variance and quantiles. In this paper, we provide a universal admissible algorithm framework for dealing with all kinds of contextual online decision-making problems that directly learns the whole underlying unknown distribution instead of focusing on individual statistics. This is much more difficult because the dimension of the regression is uncountably infinite, and any existing linear contextual bandits algorithm will result in infinite regret. To overcome this issue, we propose an efficient infinite-dimensional functional regression oracle for contextual cumulative distribution functions (CDFs), where each data point is modeled as a combination of context-dependent CDF basis functions. Our analysis reveals that the decay rate of the eigenvalue sequence of the design integral operator governs the regression error rate and, consequently, the utility regret rate. Specifically, when the eigenvalue sequence exhibits a polynomial decay of order $\frac{1}{\gamma}\ge 1$, the utility regret is bounded by $\tilde{\mathcal{O}}\Big(T^{\frac{3\gamma+2}{2(\gamma+2)}}\Big)$. By setting $\gamma=0$, this recovers the existing optimal regret rate for contextual bandits with finite-dimensional regression and is optimal under a stronger exponential decay assumption. Additionally, we provide a numerical method to compute the eigenvalue sequence of the integral operator, enabling the practical implementation of our framework.
- Abstract(参考訳): コンテキストシーケンシャルな意思決定問題は、帯域幅、シーケンシャルな仮説テスト、オンラインリスクコントロールなど、幅広いダウンストリームアプリケーションを含む、機械学習において重要な役割を果たす。
これらの応用は予測、分散、量子化など様々な統計測度を必要とすることが多い。
本稿では、個々の統計に焦点をあてるのではなく、基礎となる未知の分布を直接学習する、あらゆる種類の文脈的オンライン意思決定問題に対処するための、普遍的な許容可能なアルゴリズムフレームワークを提供する。
回帰の次元は数えきれないほど無限であり、既存の線形文脈帯域アルゴリズムは無限の後悔をもたらす。
この問題を解決するために,各データポイントを文脈依存CDF基底関数の組み合わせとしてモデル化した,文脈累積分布関数(CDF)のための効率的な無限次元関数回帰オラクルを提案する。
本研究では, 設計積分演算子の固有値列の減衰速度が回帰誤差率を制御し, その結果, 実用的後悔率を算出した。
具体的には、固有値列が次数$\frac{1}{\gamma}\ge 1$の多項式崩壊を示すとき、効用後悔は$\tilde{\mathcal{O}}\Big(T^{\frac{3\gamma+2}{2(\gamma+2)}}\Big)$で束縛される。
$\gamma=0$を設定することで、有限次元回帰を伴う文脈的帯域に対する既存の最適後悔率を回復し、強い指数的崩壊仮定の下で最適となる。
さらに,積分演算子の固有値列を計算する数値計算法を提案する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Adversarial Contextual Bandits Go Kernelized [21.007410990554522]
本研究では、ヒルベルト核空間に属する損失関数を組み込むことにより、逆線形文脈帯域におけるオンライン学習の問題を一般化する。
本稿では,損失関数を推定し,ほぼ最適の後悔の保証を再現するための新しい楽観的偏り推定器を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:59:39Z) - Functional Linear Regression of Cumulative Distribution Functions [20.96177061945288]
本稿では,CDFを至る所で正確に推定する機能リッジ回帰に基づく推定手法を提案する。
固定設計, ランダム設計, 対逆コンテキストの場合の$widetilde O(sqrtd/n)$の推定誤差上限を示す。
パラメータ空間が無限次元ヒルベルト空間である無限次元モデルを定式化し、この設定に対して自己正規化推定誤差上限を確立する。
論文 参考訳(メタデータ) (2022-05-28T23:59:50Z) - Localization, Convexity, and Star Aggregation [0.0]
オフセットラデマッハ複体は、正方形損失に対する鋭く線形依存的な上界を示すことが示されている。
統計的設定では、オフセット境界は一定の均一な凸性を満たす任意の損失に一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-05-19T00:47:59Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。