論文の概要: Adaptive Online Value Function Approximation with Wavelets
- arxiv url: http://arxiv.org/abs/2204.11842v1
- Date: Fri, 22 Apr 2022 11:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 12:40:40.562819
- Title: Adaptive Online Value Function Approximation with Wavelets
- Title(参考訳): ウェーブレットを用いた適応オンライン値関数近似
- Authors: Michael Beukman and Michael Mitchley and Dean Wookey and Steven James
and George Konidaris
- Abstract要約: 強化学習のためのウェーブレットベースを紹介する。
固定ウェーブレットベースセットは、マウンテンカーとアクロボットの高性能フーリエベースに対して比較可能であることを示す。
- 参考スコア(独自算出の注目度): 12.170799293198963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using function approximation to represent a value function is necessary for
continuous and high-dimensional state spaces. Linear function approximation has
desirable theoretical guarantees and often requires less compute and samples
than neural networks, but most approaches suffer from an exponential growth in
the number of functions as the dimensionality of the state space increases. In
this work, we introduce the wavelet basis for reinforcement learning. Wavelets
can effectively be used as a fixed basis and additionally provide the ability
to adaptively refine the basis set as learning progresses, making it feasible
to start with a minimal basis set. This adaptive method can either increase the
granularity of the approximation at a point in state space, or add in
interactions between different dimensions as necessary. We prove that wavelets
are both necessary and sufficient if we wish to construct a function
approximator that can be adaptively refined without loss of precision. We
further demonstrate that a fixed wavelet basis set performs comparably against
the high-performing Fourier basis on Mountain Car and Acrobot, and that the
adaptive methods provide a convenient approach to addressing an oversized
initial basis set, while demonstrating performance comparable to, or greater
than, the fixed wavelet basis.
- Abstract(参考訳): 連続状態空間や高次元状態空間では、値関数を表現するために関数近似を用いる必要がある。
線形関数近似は望ましい理論的保証を持ち、しばしばニューラルネットワークよりも計算とサンプルを少なくするが、ほとんどのアプローチは状態空間の次元が増加するにつれて関数の数が指数関数的に増加する。
本稿では,強化学習のためのウェーブレットベースを紹介する。
ウェーブレットは、固定基底として効果的に使用することができ、学習が進むにつれて、ベースセットを適応的に洗練することができるので、最小基底セットから始めることができる。
この適応法は、状態空間のある点における近似の粒度を増加させるか、必要に応じて異なる次元間の相互作用を追加することができる。
精度を損なうことなく適応的に洗練できる関数近似器を構築したい場合、ウェーブレットは必要かつ十分であることを示す。
さらに、固定ウェーブレット基底セットは、マウンテンカーやacrobotにおいて、より高性能なフーリエ基底に対して比較可能であり、この適応手法は、固定ウェーブレット基底と同等以上の性能を示す一方で、過大な初期基底集合に対処するための便利なアプローチを提供する。
関連論文リスト
- Analysis of regularized federated learning [8.489782750973005]
フェデレーション学習は、異質なビッグデータとプライバシ保護を扱うための効率的なツールである。
ループ降下は、通信コストを削減するために、ビッグデータの実装においてしばしば使用される。
論文 参考訳(メタデータ) (2024-11-03T12:47:54Z) - State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。
本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。
また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文 参考訳(メタデータ) (2024-02-04T15:02:17Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Towards a Foundation Model for Neural Network Wavefunctions [5.145741425164946]
本稿では,非相関で計算コストの低いHartree-Fock軌道を相関した高精度ニューラルネットワーク軌道にマッピングするニューラルネットワークアンサッツを提案する。
このアンザッツは本質的に複数の化合物とジオメトリーにわたる単一波動関数を学習することができる。
論文 参考訳(メタデータ) (2023-03-17T16:03:10Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Waveflow: boundary-conditioned normalizing flows applied to fermionic wavefunctions [3.7135179920970534]
本稿では,境界条件付き正規化フローを用いたフェルミオン波動関数の学習フレームワークであるWaveflowを紹介する。
本研究では,ウェーブフローがトポロジ的ミスマッチを効果的に解決し,基底状態の波動関数を忠実に学習できることを示す。
論文 参考訳(メタデータ) (2022-11-27T14:32:09Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。