論文の概要: Stochastic approximation in infinite dimensions
- arxiv url: http://arxiv.org/abs/2402.17258v1
- Date: Tue, 27 Feb 2024 07:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:20:55.198357
- Title: Stochastic approximation in infinite dimensions
- Title(参考訳): 無限次元における確率近似
- Authors: Rajeeva Laxman Karandikar, Bhamidi V Rao
- Abstract要約: 近似(SA)は1950年代初頭に導入され、数十年にわたって活発な研究領域であった。
近似がバナッハ空間で機能する場合を考える。
- 参考スコア(独自算出の注目度): 2.3134637611088653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Approximation (SA) was introduced in the early 1950's and has been
an active area of research for several decades. While the initial focus was on
statistical questions, it was seen to have applications to signal processing,
convex optimisation. %Over the last decade, there has been a revival of
interest in SA as In later years SA has found application in Reinforced
Learning (RL) and led to revival of interest.
While bulk of the literature is on SA for the case when the observations are
from a finite dimensional Euclidian space, there has been interest in extending
the same to infinite dimension. Extension to Hilbert spaces is relatively
easier to do, but this is not so when we come to a Banach space - since in the
case of a Banach space, even {\em law of large numbers} is not true in general.
We consider some cases where approximation works in a Banach space. Our
framework includes case when the Banach space $\Bb$ is $\Cb([0,1],\R^d)$, as
well as $\L^1([0,1],\R^d)$, the two cases which do not even have the
Radon-Nikodym property.
- Abstract(参考訳): 確率近似(Stochastic Approximation、SA)は1950年代初頭に導入され、数十年にわたって研究の活発な領域であった。
初期の焦点は統計的な問題であったが、信号処理や凸最適化に応用されていた。
%) が,近年では強化学習 (rl) に応用され,関心の復活に繋がるなど,saに対する関心が復活している。
文献の大部分は、観測が有限次元ユークリッド空間からのものである場合のSA上にあるが、同じものを無限次元に拡張することに興味がある。
ヒルベルト空間への拡張は比較的容易に行うことができるが、バナッハ空間を考えるとそうではない。
近似がバナッハ空間で作用するいくつかの場合を考える。
我々のフレームワークは、バナッハ空間 $\Bb$ が $\Cb([0,1],\R^d)$ である場合と、$\L^1([0,1],\R^d)$ である場合を含み、ラドン-ニコディムの性質さえ持たない2つの場合を含む。
関連論文リスト
- Provably Adaptive Average Reward Reinforcement Learning for Metric Spaces [2.2984209387877628]
本研究では、状態-作用空間を適応的に離散化し、状態-作用空間の有望な領域に拡大するアルゴリズムZoRLを開発する。
ZoRLは実験において、他の最先端アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2024-10-25T18:14:42Z) - Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation [67.8414514524356]
本稿では,MNL関数近似を用いたMDPの新しいクラスについて検討し,状態空間上の確率分布の正当性を保証する。
非線型関数の導入は、計算効率と統計効率の両方において大きな課題を提起する。
我々は,$mathcalO(1)$$コストで同じ後悔を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-27T11:31:54Z) - Improved Hardness Results for Learning Intersections of Halfspaces [2.1393480341554736]
不適切な設定でハーフ空間の弱学習交差点に対して、強い(そして驚くほど単純な)下界を示す。
我々は、$omega(log log N)$ halfspaces を$N$で学習しても超多項式時間を要することを示すことで、このギャップを著しく狭めている。
具体的には、次元$N$の任意の$k$ハーフスペースに対して、精度$N-Omega(k)$、指数関数的に多くのクエリが必要であることを示す。
論文 参考訳(メタデータ) (2024-02-25T05:26:35Z) - Bayes Hilbert Spaces for Posterior Approximation [0.0]
この写本はベイズ・ヒルベルト空間の後方近似問題への応用について研究している。
ベイズヒルベルト空間、ベイズコアセットアルゴリズム、およびカーネルベースの計算の間の新しい接続を概説する。
論文 参考訳(メタデータ) (2023-04-18T15:17:16Z) - Continuous percolation in a Hilbert space for a large system of qubits [58.720142291102135]
パーコレーション遷移は無限クラスターの出現によって定義される。
ヒルベルト空間の指数的に増加する次元性は、有限サイズの超球面による被覆を非効率にすることを示す。
コンパクトな距離空間におけるパーコレーション遷移への我々のアプローチは、他の文脈での厳密な処理に有用である。
論文 参考訳(メタデータ) (2022-10-15T13:53:21Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Combining Pseudo-Point and State Space Approximations for Sum-Separable
Gaussian Processes [48.64129867897491]
我々は,擬似点法と状態空間GP近似フレームワークを組み合わせて両世界の長所を得る,シンプルでエレガントな方法が存在することを示す。
組み合わせたアプローチは、どちらの方法よりも拡張性が高く、時間的問題にも適用可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-18T16:30:09Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Comment on "Entanglement growth in diffusive systems" [0.0]
最近の論文で、ダリックは拡散系における高いレニイエントロピーの成長について研究している。
ここでは、レニイエントロピーの弾道下成長に必要な条件は、実際はより一般的なものであることを指摘する。
論文 参考訳(メタデータ) (2020-10-15T18:21:53Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。