論文の概要: Learning Hidden Subgoals under Temporal Ordering Constraints in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.01425v1
- Date: Sun, 03 Nov 2024 03:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:11.191270
- Title: Learning Hidden Subgoals under Temporal Ordering Constraints in Reinforcement Learning
- Title(参考訳): 強化学習における時間的順序制約の下での隠れたサブゴールの学習
- Authors: Duo Xu, Faramarz Fekri,
- Abstract要約: 本稿では, bf 順序付き bf 制約 (LSTOC) に基づく bf l 隠れ bf サブゴールに対する新しい RL アルゴリズムを提案する。
本研究では,隠れたサブゴールとその時間的順序を同時に学習できる新しいコントラスト学習目標を提案する。
- 参考スコア(独自算出の注目度): 14.46490764849977
- License:
- Abstract: In real-world applications, the success of completing a task is often determined by multiple key steps which are distant in time steps and have to be achieved in a fixed time order. For example, the key steps listed on the cooking recipe should be achieved one-by-one in the right time order. These key steps can be regarded as subgoals of the task and their time orderings are described as temporal ordering constraints. However, in many real-world problems, subgoals or key states are often hidden in the state space and their temporal ordering constraints are also unknown, which make it challenging for previous RL algorithms to solve this kind of tasks. In order to address this issue, in this work we propose a novel RL algorithm for {\bf l}earning hidden {\bf s}ubgoals under {\bf t}emporal {\bf o}rdering {\bf c}onstraints (LSTOC). We propose a new contrastive learning objective which can effectively learn hidden subgoals (key states) and their temporal orderings at the same time, based on first-occupancy representation and temporal geometric sampling. In addition, we propose a sample-efficient learning strategy to discover subgoals one-by-one following their temporal order constraints by building a subgoal tree to represent discovered subgoals and their temporal ordering relationships. Specifically, this tree can be used to improve the sample efficiency of trajectory collection, fasten the task solving and generalize to unseen tasks. The LSTOC framework is evaluated on several environments with image-based observations, showing its significant improvement over baseline methods.
- Abstract(参考訳): 実世界のアプリケーションでは、タスクを完了させる成功は、時間ステップで遠く、固定時間順序で達成しなければならない複数のキーステップによって決定されることが多い。
例えば、調理レシピに記載されている重要なステップは、正しいタイミングで1対1で達成すべきである。
これらの重要なステップはタスクのサブゴールと見なすことができ、その時間順序は時間順序制約として記述される。
しかし、多くの実世界の問題では、サブゴールやキー状態はしばしば状態空間に隠され、その時間的順序付けの制約も未知であり、従来のRLアルゴリズムがこのようなタスクを解くのが困難である。
この問題に対処するため,本研究では, {\bf t}emporal {\bf o}rdering {\bf c}ontraints (LSTOC) の下で隠れた {\bf s}ubgoalsをアーニングするための新しいRLアルゴリズムを提案する。
本研究では,隠れたサブゴール(キー状態)とその時間的順序を,最初の占有率表現と時間的幾何的サンプリングに基づいて効果的に学習できる新しいコントラスト学習目標を提案する。
さらに,検出したサブゴールとその時間的順序関係を表すサブゴールツリーを構築することで,時間的順序制約に従ってサブゴールを1対1で発見する,サンプル効率のよい学習戦略を提案する。
具体的には、この木は、トラジェクトリコレクションのサンプル効率を改善し、タスク解決を高速化し、目に見えないタスクに一般化するために使用することができる。
LSTOCフレームワークは、画像に基づく観察によって複数の環境で評価され、ベースライン法よりも大幅に改善されている。
関連論文リスト
- SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for
Adaptive Real-Time Subtask Recognition [11.236363226878975]
サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに対処する方法を学ぶことができる。
textbfSliding textbfMultidimensional ttextbfAsk window based mtextbfUti-agent reinforcement learnintextbfG framework (SMAUG) を提案する。
StarCraft IIの実験では、SMAUGはすべてのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、より顕著で迅速な報酬の上昇を示す。
論文 参考訳(メタデータ) (2024-03-04T08:04:41Z) - Optimal Task Assignment and Path Planning using Conflict-Based Search with Precedence and Temporal Constraints [5.265273282482319]
本稿では,TAPF-PTC問題におけるタスク割り当てと経路探索について検討する。
我々は、競合ベースの検索(CBS)を拡張して、優先度と時間的制約に従うタスク割り当てと衝突のない経路を同時に生成する。
実験により,我々のアルゴリズムであるCBS-TA-PTCは,優先度と時間的制約を効果的に解決できることを示した。
論文 参考訳(メタデータ) (2024-02-13T20:07:58Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Reinforcement Learning with Simple Sequence Priors [9.869634509510016]
圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。
得られたRLアルゴリズムは学習を高速化し、最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-05-26T17:18:14Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Continual Learning with Distributed Optimization: Does CoCoA Forget? [0.0]
タスクが順次到着する継続的学習問題に着目する。
目指すのは、新しく到着したタスクに対して、以前見たタスクのパフォーマンスを低下させることなく、うまく機能することである。
分散学習アルゴリズムCOCOAについて検討する。
論文 参考訳(メタデータ) (2022-11-30T13:49:43Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。