論文の概要: Improving planning and MBRL with temporally-extended actions
- arxiv url: http://arxiv.org/abs/2505.15754v1
- Date: Wed, 21 May 2025 16:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.792045
- Title: Improving planning and MBRL with temporally-extended actions
- Title(参考訳): 時間的拡張行動による計画改善とMBRL
- Authors: Palash Chatterjee, Roni Khardon,
- Abstract要約: 連続時間システムは離散時間力学を用いてモデル化されることが多いが、精度を維持するには小さなシミュレーションステップが必要である。
モデルフリー強化学習における従来の研究は、個別の行動期間を決定するためにポリシーを学習するアクションリピートを用いて、この問題に部分的に対処してきた。
本稿では、時間的に拡張されたアクションを使用して、連続的な決定時間を直接制御し、プランナーが追加の最適化変数としてアクションの持続時間を扱わせることを提案する。
- 参考スコア(独自算出の注目度): 2.7777488754991206
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Continuous time systems are often modeled using discrete time dynamics but this requires a small simulation step to maintain accuracy. In turn, this requires a large planning horizon which leads to computationally demanding planning problems and reduced performance. Previous work in model free reinforcement learning has partially addressed this issue using action repeats where a policy is learned to determine a discrete action duration. Instead we propose to control the continuous decision timescale directly by using temporally-extended actions and letting the planner treat the duration of the action as an additional optimization variable along with the standard action variables. This additional structure has multiple advantages. It speeds up simulation time of trajectories and, importantly, it allows for deep horizon search in terms of primitive actions while using a shallow search depth in the planner. In addition, in the model based reinforcement learning (MBRL) setting, it reduces compounding errors from model learning and improves training time for models. We show that this idea is effective and that the range for action durations can be automatically selected using a multi-armed bandit formulation and integrated into the MBRL framework. An extensive experimental evaluation both in planning and in MBRL, shows that our approach yields faster planning, better solutions, and that it enables solutions to problems that are not solved in the standard formulation.
- Abstract(参考訳): 連続時間システムは離散時間力学を用いてモデル化されることが多いが、精度を維持するには小さなシミュレーションステップが必要である。
逆にこれは、計算的に要求される計画上の問題と性能の低下につながる、大規模な計画の水平線を必要とする。
モデルフリー強化学習における従来の研究は、個別の行動期間を決定するためにポリシーを学習するアクションリピートを用いて、この問題に部分的に対処してきた。
代わりに、時間的に拡張されたアクションを使用し、プランナーがアクションの持続時間を標準アクション変数と共に追加の最適化変数として扱うことで、継続的決定の時間スケールを直接制御することを提案する。
この追加構造には複数の利点がある。
軌道のシミュレーション時間を短縮し、プランナーの浅い探索深度を使用しながら原始的な動作の観点から深層地平線探索を可能にする。
さらに、モデルベース強化学習(MBRL)設定では、モデル学習からの複合的エラーを低減し、モデルのトレーニング時間を改善する。
この考え方は有効であり,MBRLフレームワークに組み込んだマルチアームバンディットの定式化により,動作時間の範囲を自動的に選択できることを示す。
計画とMBRLの両方での広範な実験的評価により、我々の手法はより高速な計画とより良い解決策をもたらし、標準定式化では解けない問題に対する解決を可能にすることが示されている。
関連論文リスト
- Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - Variable Time-Step MPC for Agile Multi-Rotor UAV Interception of Dynamic Targets [6.0967385124149756]
既存の非線形モデル予測制御手法を使用したアジャイルプランニングは、ますます需要が高まるにつれて計画手順の数によって制限される。
本稿では,変動時間ステップを導入し,予測水平長と組み合わせることで,これらの制約に対処することを提案する。
簡易な点質量運動プリミティブは、四重項力学の微分平坦性と、平坦な出力空間における可能な軌道の軌道生成を利用するために用いられる。
論文 参考訳(メタデータ) (2025-03-18T11:59:24Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Goal-Space Planning with Subgoal Models [18.43265820052893]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:59:07Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。