論文の概要: Action Mapping for Reinforcement Learning in Continuous Environments with Constraints
- arxiv url: http://arxiv.org/abs/2412.04327v1
- Date: Thu, 05 Dec 2024 16:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:44.308498
- Title: Action Mapping for Reinforcement Learning in Continuous Environments with Constraints
- Title(参考訳): 制約のある連続環境における強化学習のためのアクションマッピング
- Authors: Mirco Theile, Lukas Dirnberger, Raphael Trumpp, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli,
- Abstract要約: 本稿では,アクションマッピングを利用した新しいDRL学習手法を提案し,学習プロセスの合理化を図る。
動作マッピングは制約のある環境でのトレーニング性能を大幅に向上させる実験を通して実証する。
- 参考スコア(独自算出の注目度): 4.521631014571241
- License:
- Abstract: Deep reinforcement learning (DRL) has had success across various domains, but applying it to environments with constraints remains challenging due to poor sample efficiency and slow convergence. Recent literature explored incorporating model knowledge to mitigate these problems, particularly through the use of models that assess the feasibility of proposed actions. However, integrating feasibility models efficiently into DRL pipelines in environments with continuous action spaces is non-trivial. We propose a novel DRL training strategy utilizing action mapping that leverages feasibility models to streamline the learning process. By decoupling the learning of feasible actions from policy optimization, action mapping allows DRL agents to focus on selecting the optimal action from a reduced feasible action set. We demonstrate through experiments that action mapping significantly improves training performance in constrained environments with continuous action spaces, especially with imperfect feasibility models.
- Abstract(参考訳): 深層強化学習(DRL)は、様々な領域で成功しているが、サンプル効率が悪く、収束が遅いため、制約のある環境に適用することは依然として困難である。
近年の研究では、これらの問題を緩和するためにモデル知識を取り入れ、特に提案された行動の実現可能性を評価するモデルを用いて検討されている。
しかし、連続的なアクション空間を持つ環境におけるDRLパイプラインに効率よく実現可能なモデルを統合することは容易ではない。
本稿では、実行可能性モデルを利用して学習プロセスを合理化するためのアクションマッピングを利用した新しいDRLトレーニング戦略を提案する。
ポリシー最適化から実行可能なアクションの学習を分離することにより、アクションマッピングにより、DRLエージェントは、削減可能なアクションセットから最適なアクションを選択することに集中することができる。
本研究では,連続的な行動空間を持つ制約環境,特に不完全な実現可能性モデルにおいて,アクションマッピングがトレーニング性能を著しく向上することを示す。
関連論文リスト
- Adversarial Moment-Matching Distillation of Large Language Models [3.9160947065896803]
知識蒸留(KD)は、より大きな教師モデルで学生モデルを導くのに非常に効果的であることが示されている。
そこで本稿では,モーメントマッチング距離を推定し,学生のポリシーを最適化して最小化するための逆トレーニングアルゴリズムを提案する。
タスクに依存しない指示追従実験とタスク固有の実験の両方の結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-05T05:27:29Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。