論文の概要: Achieving Sample and Computational Efficient Reinforcement Learning by
Action Space Reduction via Grouping
- arxiv url: http://arxiv.org/abs/2306.12981v1
- Date: Thu, 22 Jun 2023 15:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 13:58:18.885907
- Title: Achieving Sample and Computational Efficient Reinforcement Learning by
Action Space Reduction via Grouping
- Title(参考訳): グループ化による行動空間削減によるサンプルと計算効率向上学習の実現
- Authors: Yining Li, Peizhong Ju, Ness Shroff
- Abstract要約: 強化学習は、しばしば高次元空間における状態や行動の指数的な成長に対処する必要がある。
我々は、動作に類似したMDPの固有の構造を学び、性能劣化とサンプル/計算の複雑さを適切にバランスさせる。
- 参考スコア(独自算出の注目度): 7.691755449724638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning often needs to deal with the exponential growth of
states and actions when exploring optimal control in high-dimensional spaces
(often known as the curse of dimensionality). In this work, we address this
issue by learning the inherent structure of action-wise similar MDP to
appropriately balance the performance degradation versus sample/computational
complexity. In particular, we partition the action spaces into multiple groups
based on the similarity in transition distribution and reward function, and
build a linear decomposition model to capture the difference between the
intra-group transition kernel and the intra-group rewards. Both our theoretical
analysis and experiments reveal a \emph{surprising and counter-intuitive
result}: while a more refined grouping strategy can reduce the approximation
error caused by treating actions in the same group as identical, it also leads
to increased estimation error when the size of samples or the computation
resources is limited. This finding highlights the grouping strategy as a new
degree of freedom that can be optimized to minimize the overall performance
loss. To address this issue, we formulate a general optimization problem for
determining the optimal grouping strategy, which strikes a balance between
performance loss and sample/computational complexity. We further propose a
computationally efficient method for selecting a nearly-optimal grouping
strategy, which maintains its computational complexity independent of the size
of the action space.
- Abstract(参考訳): 強化学習は、高次元空間(しばしば次元の呪いとして知られる)における最適制御を探索する際に、状態や行動の指数的な成長を扱う必要がある。
本研究では,動作に類似したMDPの固有構造を学習し,性能劣化とサンプル/計算複雑性を適切にバランスさせることにより,この問題に対処する。
特に,遷移分布と報酬関数の類似性に基づいて作用空間を複数の群に分け,群内遷移核と群内報酬の差を捉える線形分解モデルを構築した。
より洗練されたグループ化戦略は、同一のグループでの処理によって生じる近似誤差を減少させるが、サンプルや計算資源のサイズが制限された場合の予測誤差も増大させる。
この発見はグループ戦略を、全体的なパフォーマンス損失を最小限に抑えるために最適化可能な、新たな自由度として強調している。
この問題に対処するために,性能損失とサンプル/計算複雑性のバランスをとる最適グループ化戦略を決定するための一般的な最適化問題を定式化する。
さらに,行動空間の大きさに依存しない計算複雑性を保ちつつ,最適に近いグループ化戦略を選択する計算効率の高い手法を提案する。
関連論文リスト
- Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Feature Grouping and Sparse Principal Component Analysis [23.657672812296518]
Grouping and Sparse principal Analysis (SPCA) はデータ処理次元の削減に広く利用されている。
FGSPCAは、荷重が不均一な同種群に属することを許容し、空間性は特別な場合である。
論文 参考訳(メタデータ) (2021-06-25T15:08:39Z) - Partition-based formulations for mixed-integer optimization of trained
ReLU neural networks [66.88252321870085]
本稿では,訓練されたReLUニューラルネットワークのための混合整数式について紹介する。
1つの極端な場合、入力毎に1つのパーティションがノードの凸殻、すなわち各ノードの最も厳密な可能な定式化を回復する。
論文 参考訳(メタデータ) (2021-02-08T17:27:34Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。