論文の概要: Towards model-free RL algorithms that scale well with unstructured data
- arxiv url: http://arxiv.org/abs/2311.02215v1
- Date: Fri, 3 Nov 2023 20:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:00:37.429257
- Title: Towards model-free RL algorithms that scale well with unstructured data
- Title(参考訳): 非構造データによく対応したモデルフリーRLアルゴリズム
- Authors: Joseph Modayil and Zaheer Abbas
- Abstract要約: 本稿では,経験ストリームから直接予測構造を発見し,活用するための報奨関連一般値関数質問を構築するアルゴリズムを提案する。
提案アルゴリズムは,これらのスケーリング問題に対して,従来のディープRLアルゴリズムよりも確実に性能を向上する。
- 参考スコア(独自算出の注目度): 1.3799571823220778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional reinforcement learning (RL) algorithms exhibit broad generality
in their theoretical formulation and high performance on several challenging
domains when combined with powerful function approximation. However, developing
RL algorithms that perform well across problems with unstructured observations
at scale remains challenging because most function approximation methods rely
on externally provisioned knowledge about the structure of the input for good
performance (e.g. convolutional networks, graph neural networks, tile-coding).
A common practice in RL is to evaluate algorithms on a single problem, or on
problems with limited variation in the observation scale. RL practitioners lack
a systematic way to study how well a single RL algorithm performs when
instantiated across a range of problem scales, and they lack function
approximation techniques that scale well with unstructured observations.
We address these limitations by providing environments and algorithms to
study scaling for unstructured observation vectors and flat action spaces. We
introduce a family of combinatorial RL problems with an exponentially large
state space and high-dimensional dynamics but where linear computation is
sufficient to learn a (nonlinear) value function estimate for performant
control. We provide an algorithm that constructs reward-relevant general value
function (GVF) questions to find and exploit predictive structure directly from
the experience stream. In an empirical evaluation of the approach on synthetic
problems, we observe a sample complexity that scales linearly with the
observation size. The proposed algorithm reliably outperforms a conventional
deep RL algorithm on these scaling problems, and they exhibit several desirable
auxiliary properties. These results suggest new algorithmic mechanisms by which
algorithms can learn at scale from unstructured data.
- Abstract(参考訳): 従来の強化学習(rl)アルゴリズムは、強力な関数近似と組み合わせると、その理論的な定式化といくつかの課題領域で高い性能を示す。
しかし、ほとんどの関数近似法は、優れたパフォーマンス(畳み込みネットワーク、グラフニューラルネットワーク、タイル符号化など)のために入力の構造に関する外部に設定された知識に依存しているため、スケールでの非構造化観測の問題によく対応するRLアルゴリズムの開発は依然として困難である。
RLの一般的な実践は、単一の問題や観測スケールの変動に制限のある問題についてアルゴリズムを評価することである。
RLの実践者は、様々な問題スケールでインスタンス化されると、単一のRLアルゴリズムがどれだけうまく機能するかを研究する体系的な方法がなく、非構造的な観察とうまくスケールする関数近似技術が欠けている。
非構造化観測ベクトルと平坦な作用空間のスケーリングを研究する環境とアルゴリズムを提供することで、これらの制限に対処する。
本稿では,指数関数的に大きな状態空間と高次元力学を持つ組合せRL問題群を紹介するが,線形計算で(非線形)値関数の推定値を求めるのに十分である。
本稿では,報奨関連一般値関数(GVF)質問を構築し,経験ストリームから直接予測構造を発見し,活用するアルゴリズムを提案する。
合成問題に対するアプローチの実証的評価では, 観測サイズと線形にスケールするサンプルの複雑さを観察する。
提案アルゴリズムはこれらのスケーリング問題に対して従来のディープRLアルゴリズムを確実に上回り、いくつかの望ましい補助特性を示す。
これらの結果は,非構造化データから大規模にアルゴリズムを学習できる新しいアルゴリズム機構を提案する。
関連論文リスト
- Gauge-optimal approximate learning for small data classification
problems [0.0]
小さなデータ学習問題は、応答変数の観測量が限られたことと大きな特徴空間次元との相違によって特徴づけられる。
本稿では,Gauge-Optimal Approximate Learning (GOAL)アルゴリズムを提案する。
GOALは、合成データと、気候科学やバイオインフォマティクスといった現実世界の応用に挑戦する、最先端の機械学習(ML)ツールと比較されている。
論文 参考訳(メタデータ) (2023-10-29T16:46:05Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Adaptive Discretization in Online Reinforcement Learning [9.560980936110234]
離散化に基づくアルゴリズムを設計する際の2つの大きな疑問は、離散化をどのように生成し、いつそれを洗練するかである。
オンライン強化学習のための木に基づく階層分割手法の統一的理論的解析を行う。
我々のアルゴリズムは操作制約に容易に適応し、我々の理論は3つの面のそれぞれに明示的な境界を与える。
論文 参考訳(メタデータ) (2021-10-29T15:06:15Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Accelerating Recursive Partition-Based Causal Structure Learning [4.357523892518871]
帰納的因果探索アルゴリズムは、より小さなサブプロブレムで条件独立性テスト(CI)を用いて良い結果をもたらす。
本稿では,少数のCIテストと望ましくない関係を特定できる汎用因果構造改善戦略を提案する。
次に,合成および実データ集合における解の質と完了時間の観点から,最先端アルゴリズムに対する性能を実証的に評価する。
論文 参考訳(メタデータ) (2021-02-23T08:28:55Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。