論文の概要: Sparsity Prior Regularized Q-learning for Sparse Action Tasks
- arxiv url: http://arxiv.org/abs/2105.08666v2
- Date: Wed, 19 May 2021 02:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 11:28:12.246498
- Title: Sparsity Prior Regularized Q-learning for Sparse Action Tasks
- Title(参考訳): スパースアクションタスクのためのsparsity prior regularized q-learning
- Authors: Jing-Cheng Pang, Tian Xu, Sheng-Yi Jiang, Yu-Ren Liu, Yang Yu
- Abstract要約: 多くの意思決定タスクでは、特定の行動は頻度や総量に限られており、例えば、銃撃戦の「火」や株取引の「購入/販売」などである。
本稿では,低確率をスパース動作に割り当てる参照分布を構築し,参照分布に明示的な制約を課した正規化対象を提案する。
正規化されたベルマン演算子と正規化された最適ポリシを導出し、エラーの伝播を遅くし、エージェントにスパースアクションをより慎重に行うように誘導する。
- 参考スコア(独自算出の注目度): 13.010073768896493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many decision-making tasks, some specific actions are limited in their
frequency or total amounts, such as "fire" in the gunfight game and "buy/sell"
in the stock trading. We name such actions as "sparse action". Sparse action
often plays a crucial role in achieving good performance. However, their
Q-values, estimated by \emph{classical Bellman update}, usually suffer from a
large estimation error due to the sparsity of their samples. The \emph{greedy}
policy could be greatly misled by the biased Q-function and takes sparse action
aggressively, which leads to a huge sub-optimality. This paper constructs a
reference distribution that assigns a low probability to sparse action and
proposes a regularized objective with an explicit constraint to the reference
distribution. Furthermore, we derive a regularized Bellman operator and a
regularized optimal policy that can slow down the propagation of error and
guide the agent to take sparse action more carefully. The experiment results
demonstrate that our method achieves state-of-the-art performance on typical
sparse action tasks.
- Abstract(参考訳): 多くの意思決定タスクにおいて、特定のアクションは、銃術の「火」や株式取引の「買い」など、その頻度や総量によって制限される。
我々はそのような行動を「スパースアクション」と呼ぶ。
スパースアクションは、しばしば優れたパフォーマンスを達成する上で重要な役割を果たす。
しかしながら、emph{classical bellman update} によって推定されるそれらのq値は、通常、標本のスパース性のため、大きな推定誤差を被る。
emph{greedy} のポリシーは、バイアス付き Q-函数によって大きく誤解される可能性があり、スパース作用を積極的に行い、大きな準最適をもたらす。
本稿では,sparseアクションに低い確率を割り当てる参照分布を構築し,その参照分布に明示的な制約を持つ正規化対象を提案する。
さらに、正規化ベルマン演算子と正規化最適ポリシーを導出し、エラーの伝播を遅くし、エージェントがよりスパースアクションを取るよう誘導する。
実験の結果,本手法は,典型的なスパース動作タスクにおける最先端性能を実現する。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。