論文の概要: Adapting the Function Approximation Architecture in Online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2106.09776v1
- Date: Thu, 17 Jun 2021 19:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:21:47.873723
- Title: Adapting the Function Approximation Architecture in Online Reinforcement
Learning
- Title(参考訳): オンライン強化学習における関数近似アーキテクチャの適用
- Authors: John D. Martin and Joseph Modayil
- Abstract要約: 本稿では,オンライン強化学習(RL)予測アルゴリズムを提案する。
このアルゴリズムは高次元のベースライン観測を行う空間領域で評価される。
- 参考スコア(独自算出の注目度): 2.8224889996383395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of a reinforcement learning (RL) system depends on the
computational architecture used to approximate a value function. Deep learning
methods provide both optimization techniques and architectures for
approximating nonlinear functions from noisy, high-dimensional observations.
However, prevailing optimization techniques are not designed for
strictly-incremental online updates. Nor are standard architectures designed
for observations with an a priori unknown structure: for example, light sensors
randomly dispersed in space. This paper proposes an online RL prediction
algorithm with an adaptive architecture that efficiently finds useful nonlinear
features. The algorithm is evaluated in a spatial domain with high-dimensional,
stochastic observations. The algorithm outperforms non-adaptive baseline
architectures and approaches the performance of an architecture given
side-channel information. These results are a step towards scalable RL
algorithms for more general problems, where the observation structure is not
available.
- Abstract(参考訳): 強化学習システム(RL)の性能は、値関数の近似に使用される計算アーキテクチャに依存する。
深層学習法は、ノイズの多い高次元観測から非線形関数を近似するための最適化技術とアーキテクチャの両方を提供する。
しかし、一般的な最適化技術は厳密なオンライン更新のために設計されていない。
例えば、光センサーは宇宙にランダムに分散している。
本稿では,有用な非線形特徴を効率的に発見する適応アーキテクチャを持つオンラインrl予測アルゴリズムを提案する。
このアルゴリズムは高次元の確率的観測により空間領域で評価される。
このアルゴリズムは、非適応ベースラインアーキテクチャよりも優れており、サイドチャネル情報を与えるアーキテクチャの性能にアプローチする。
これらの結果は、観測構造が利用できないより一般的な問題に対するスケーラブルなRLアルゴリズムへのステップである。
関連論文リスト
- Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Towards model-free RL algorithms that scale well with unstructured data [1.3799571823220778]
本稿では,経験ストリームから直接予測構造を発見し,活用するための報奨関連一般値関数質問を構築するアルゴリズムを提案する。
提案アルゴリズムは,これらのスケーリング問題に対して,従来のディープRLアルゴリズムよりも確実に性能を向上する。
論文 参考訳(メタデータ) (2023-11-03T20:03:54Z) - CR-LSO: Convex Neural Architecture Optimization in the Latent Space of
Graph Variational Autoencoder with Input Convex Neural Networks [7.910915721525413]
潜時空間最適化(LSO)に基づくニューラルアーキテクチャ探索(NAS)法では、離散的ニューラルアーキテクチャを連続潜時空間に埋め込むために深層生成モデルを訓練する。
本稿では,空間の学習過程を正規化することを目的とした凸性アーキテクチャ正規化空間(CRLSO)法について述べる。
3つのNASベンチマークによる実験結果から,CR-LSOは計算複雑性と性能の両面で競合評価結果が得られることが示された。
論文 参考訳(メタデータ) (2022-11-11T01:55:11Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - An AI-Assisted Design Method for Topology Optimization Without
Pre-Optimized Training Data [68.8204255655161]
トポロジ最適化に基づくAI支援設計手法を提示し、最適化された設計を直接的に得ることができる。
設計は、境界条件と入力データとしての充填度に基づいて、人工ニューラルネットワーク、予測器によって提供される。
論文 参考訳(メタデータ) (2020-12-11T14:33:27Z) - Off-Policy Reinforcement Learning for Efficient and Effective GAN
Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。
鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。
我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文 参考訳(メタデータ) (2020-07-17T18:29:17Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Bayesian Neural Architecture Search using A Training-Free Performance
Metric [7.775212462771685]
リカレントニューラルネットワーク(RNN)は時系列予測の強力なアプローチである。
本稿では,ベイズ最適化(BO)アルゴリズムの変種を用いて,アーキテクチャ最適化問題に取り組むことを提案する。
また,可変長アーキテクチャ表現に対処する3つの固定長符号化方式を提案する。
論文 参考訳(メタデータ) (2020-01-29T08:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。