論文の概要: Exact Reduction of Huge Action Spaces in General Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.10200v1
- Date: Fri, 18 Dec 2020 12:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 23:43:39.256809
- Title: Exact Reduction of Huge Action Spaces in General Reinforcement Learning
- Title(参考訳): 総合強化学習における巨大動作空間の完全縮小
- Authors: Sultan Javed Majeed and Marcus Hutter
- Abstract要約: 非MDPケースにおけるアクションバイナライゼーションがエクストリーム状態アグリゲーション(ESA)境界を有意に改善する方法を示す。
我々は,この二元化esaの状態数の上限を,元の動作空間サイズで対数的であり,二重指数的改善を与える。
- 参考スコア(独自算出の注目度): 28.19950790106291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reinforcement learning (RL) framework formalizes the notion of learning
with interactions. Many real-world problems have large state-spaces and/or
action-spaces such as in Go, StarCraft, protein folding, and robotics or are
non-Markovian, which cause significant challenges to RL algorithms. In this
work we address the large action-space problem by sequentializing actions,
which can reduce the action-space size significantly, even down to two actions
at the expense of an increased planning horizon. We provide explicit and exact
constructions and equivalence proofs for all quantities of interest for
arbitrary history-based processes. In the case of MDPs, this could help RL
algorithms that bootstrap. In this work we show how action-binarization in the
non-MDP case can significantly improve Extreme State Aggregation (ESA) bounds.
ESA allows casting any (non-MDP, non-ergodic, history-based) RL problem into a
fixed-sized non-Markovian state-space with the help of a surrogate Markovian
process. On the upside, ESA enjoys similar optimality guarantees as Markovian
models do. But a downside is that the size of the aggregated state-space
becomes exponential in the size of the action-space. In this work, we patch
this issue by binarizing the action-space. We provide an upper bound on the
number of states of this binarized ESA that is logarithmic in the original
action-space size, a double-exponential improvement.
- Abstract(参考訳): 強化学習(RL)フレームワークは、相互作用による学習の概念を形式化する。
多くの現実世界の問題は、Go、StarCraft、タンパク質の折り畳み、ロボット工学のような大きな状態空間やアクション空間を持ち、非マルコフ的であり、RLアルゴリズムに重大な課題を引き起こしている。
本研究は,アクションを逐次化することで大規模なアクション空間問題に対処し,プランニングの地平線を増大させるため,アクション空間のサイズを2つのアクションに減らすことができる。
任意の履歴ベースのプロセスに対して、すべての利害関係に対する明示的かつ厳密な構成と等価証明を提供する。
MDPの場合、これはブートストラップを行うRLアルゴリズムに役立つ。
本研究では,非MDPケースにおけるアクションバイナリ化がエクストリーム状態アグリゲーション(ESA)境界を大幅に改善することを示す。
ESAは、任意の(非MDP、非エルゴード、歴史に基づく)RL問題を、マルコフ過程の助けを借りて固定サイズの非マルコフ状態空間にキャストできる。
利点として、ESAはマルコフモデルと同様の最適性を保証する。
しかし、デメリットは、集約された状態空間のサイズがアクション空間のサイズで指数関数的になることです。
本研究では,アクション空間をバイナライズすることでこの問題に対処する。
我々は,この二元化esaの状態数の上限を,元の動作空間サイズで対数的であり,二重指数的改善を与える。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning [13.341525656639583]
大規模なアクションスペースは、実世界で強化学習メソッドをデプロイする上での基本的な障害のひとつです。
我々はNo Prior Mask (NPM) という新しい冗長な動作フィルタリング機構を提案する。
論文 参考訳(メタデータ) (2023-12-11T09:56:02Z) - Dynamic Neighborhood Construction for Structured Large Discrete Action
Spaces [2.285821277711785]
大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。
既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。
本研究では, SLDAS の新たな活用パラダイムである Dynamic Neighborhood Construction (DNC) を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:26:14Z) - Linear Reinforcement Learning with Ball Structure Action Space [8.697177927706521]
本稿では,サンプル効率のよいRLアルゴリズム (BallRL) を提案し,$tildeOleft(fracH5d3epsilon3right)$のトラジェクトリ数を用いて,$epsilon$-optimal Policyを学習する。
特に,$tildeOleft(fracH5d3epsilon3right)$のトラジェクトリ数だけを用いて,$epsilon$-optimal Policyを学習するサンプル効率のよいRLアルゴリズム(BallRL)を提案する。
論文 参考訳(メタデータ) (2022-11-14T14:48:39Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Implicit Bias of Projected Subgradient Method Gives Provable Robust
Recovery of Subspaces of Unknown Codimension [12.354076490479514]
本稿では,DPCP (Dual principal Component Pursuit) が未知の部分空間次元の問題を確実に解決できることを示す。
プロジェクテッド・サブ段階降下法(PSGM)の複数インスタンスの実行に基づく,非常に単純なアルゴリズムを提案する。
特に、1)すべての問題インスタンスが部分空間のヌル空間のベクトルに収束し、2)問題インスタンスの解のアンサンブルが、部分空間のヌル空間に完全にまたがるほど十分に多様であることを示す。
論文 参考訳(メタデータ) (2022-01-22T15:36:03Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces [26.297887542066505]
本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。
本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。
ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。