論文の概要: Bad-Policy Density: A Measure of Reinforcement Learning Hardness
- arxiv url: http://arxiv.org/abs/2110.03424v1
- Date: Thu, 7 Oct 2021 13:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:06:11.878566
- Title: Bad-Policy Density: A Measure of Reinforcement Learning Hardness
- Title(参考訳): バッド・ポリシィ密度:強化学習硬度の測定
- Authors: David Abel, Cameron Allen, Dilip Arumugam, D. Ellis Hershkowitz,
Michael L. Littman, Lawson L.S. Wong
- Abstract要約: 悪い政治密度という,強化学習難易度を簡易に測定する手法を提案する。
この量は、所望値のしきい値以下である決定論的定常政策空間の分数を測定する。
- 参考スコア(独自算出の注目度): 34.390430001822146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is hard in general. Yet, in many specific
environments, learning is easy. What makes learning easy in one environment,
but difficult in another? We address this question by proposing a simple
measure of reinforcement-learning hardness called the bad-policy density. This
quantity measures the fraction of the deterministic stationary policy space
that is below a desired threshold in value. We prove that this simple quantity
has many properties one would expect of a measure of learning hardness.
Further, we prove it is NP-hard to compute the measure in general, but there
are paths to polynomial-time approximation. We conclude by summarizing
potential directions and uses for this measure.
- Abstract(参考訳): 強化学習は一般的に難しい。
しかし、多くの特定の環境では、学習は簡単です。
ある環境では学習が簡単だが、別の環境では難しいのか?
この問題は、悪い政治密度と呼ばれる強化学習難度を簡易に測定することで解決する。
この量は、所望値のしきい値以下である決定論的定常政策空間の分数を測定する。
この単純な量には、学習困難度を期待する多くの特性があることを証明する。
さらに、一般に測度を計算することはnp困難であるが、多項式時間近似への経路が存在することを証明する。
我々はポテンシャル方向を要約して結論付け、この測度に使用する。
関連論文リスト
- Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning [34.791182995710024]
本稿では,強化学習と教師あり学習の分離を初めて示す。
また,ブロックMDPにおける報酬指向RLに対する計算効率のよいアルゴリズムは存在しないことを示す。
論文 参考訳(メタデータ) (2024-04-04T19:35:41Z) - Free Fermion Distributions Are Hard to Learn [55.2480439325792]
我々は、粒子数非保存の場合において、このタスクの硬さを確立する。
期待値から学習する一般的なタスクに対して,情報理論的難易度結果を与える。
特に,確率密度関数の学習を想定した計算硬度結果を与える。
論文 参考訳(メタデータ) (2023-06-07T18:51:58Z) - Understanding Difficulty-based Sample Weighting with a Universal
Difficulty Measure [2.7413469516930578]
多くの重み付け手法は、基本的にトレーニングサンプルの学習困難を利用して重みを計算する。
サンプルの学習困難度は、ノイズレベル、不均衡度、マージン、不確実性を含む複数の要因によって決定される。
本研究では,サンプルの一般化誤差を普遍的難易度尺度として用いることができることを理論的に証明する。
論文 参考訳(メタデータ) (2023-01-12T07:28:32Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Exploring the Learning Difficulty of Data Theory and Measure [2.668651175000491]
本研究は,サンプルの学習難易度に関するパイロット理論的研究を試みている。
一般化誤差に関するバイアス分散トレードオフ理論に基づいて,学習難易度の理論的定義を提案する。
機械学習における古典的な重み付け法は、探索された性質からよく説明できる。
論文 参考訳(メタデータ) (2022-05-16T02:28:12Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Learning where to learn: Gradient sparsity in meta and continual
learning [4.845285139609619]
学習アルゴリズムがどの重みを変えるかを決定することによって、メタ学習を改善することができることを示す。
このプロセスからパターン化されたスパーシリティが出現し、そのパターンは問題ごとの確率に基づいて変化する。
その結果、メタ学習が適応可能な特徴を発見できるかどうかの議論が進行中であり、疎勾配降下による学習がメタ学習システムにとって強力な帰納的バイアスであることを示唆している。
論文 参考訳(メタデータ) (2021-10-27T12:54:36Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon
Reinforcement Learning? [108.94173231481355]
長い地平線を計画する学習は、エピソード強化学習問題における中心的な課題である。
長地平線RLは、少なくともミニマックス感覚において、短地平線RLよりも困難ではないことを示す。
論文 参考訳(メタデータ) (2020-05-01T17:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。