論文の概要: Soft Actor-Critic With Integer Actions
- arxiv url: http://arxiv.org/abs/2109.08512v1
- Date: Fri, 17 Sep 2021 12:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:49:36.681114
- Title: Soft Actor-Critic With Integer Actions
- Title(参考訳): Integer Actionsを用いたソフトアクター批判
- Authors: Ting-Han Fan, Yubo Wang
- Abstract要約: 我々は,ソフトアクタ・クリティカル(SAC)アルゴリズムを組み込んだ整数動作下での強化学習について検討した。
実験の結果,提案したSACはロボット制御タスクの連続動作バージョンと同等であることがわかった。
- 参考スコア(独自算出の注目度): 2.436681150766912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is well-studied under discrete actions. Integer
actions setting is popular in the industry yet still challenging due to its
high dimensionality. To this end, we study reinforcement learning under integer
actions by incorporating the Soft Actor-Critic (SAC) algorithm with an integer
reparameterization. Our key observation for integer actions is that their
discrete structure can be simplified using their comparability property. Hence,
the proposed integer reparameterization does not need one-hot encoding and is
of low dimensionality. Experiments show that the proposed SAC under integer
actions is as good as the continuous action version on robot control tasks and
outperforms Proximal Policy Optimization on power distribution systems control
tasks.
- Abstract(参考訳): 強化学習は離散的行動の下でよく研究されている。
整数アクションの設定は業界で人気があるが、高次元のためまだ難しい。
そこで本研究では,SAC(Soft Actor-Critic)アルゴリズムの整数再パラメータ化による強化学習について検討する。
整数作用のキーとなる観察は、それらの離散構造が可視性を用いて単純化できることである。
したがって、提案した整数再パラメータ化は1ホット符号化を必要とせず、低次元である。
実験の結果,提案したSACは,ロボット制御タスクの連続動作バージョンや,配電系統制御タスクの近似ポリシ最適化よりも優れていることがわかった。
関連論文リスト
- SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。
i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文 参考訳(メタデータ) (2024-03-04T15:07:33Z) - REValueD: Regularised Ensemble Value-Decomposition for Factorisable
Markov Decision Processes [7.2129390689756185]
離散アクション強化学習アルゴリズムは、高次元の離散アクション空間を持つタスクにしばしば干渉する。
本研究は、値分解の効果を深く掘り下げ、対象の分散を増幅することを明らかにする。
我々は、ある次元における探索的行動が他の次元における最適な行動の価値に与える影響を軽減するのに役立つ正規化損失を導入する。
我々の新しいアルゴリズムREValueDはDeepMind Control Suiteタスクの離散バージョンでテストされ、優れた性能を示している。
論文 参考訳(メタデータ) (2024-01-16T21:47:23Z) - Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Efficient Neural Network Analysis with Sum-of-Infeasibilities [64.31536828511021]
凸最適化における総和係数法に着想を得て,広範な分岐関数を持つネットワーク上での検証クエリを解析するための新しい手法を提案する。
標準ケース分析に基づく完全探索手順の拡張は、各検索状態で実行される凸手順をDeepSoIに置き換えることによって達成できる。
論文 参考訳(メタデータ) (2022-03-19T15:05:09Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。