論文の概要: Subgoal Discovery Using a Free Energy Paradigm and State Aggregations
- arxiv url: http://arxiv.org/abs/2412.16687v1
- Date: Sat, 21 Dec 2024 16:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:04.608094
- Title: Subgoal Discovery Using a Free Energy Paradigm and State Aggregations
- Title(参考訳): 自由エネルギーパラダイムと状態アグリゲーションを用いたサブゴアル発見
- Authors: Amirhossein Mesbah, Reshad Hosseini, Seyed Pooya Shariatpanahi, Majid Nili Ahmadabadi,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑なシーケンシャルな意思決定タスクの解決において重要な役割を果たしている。
サブゴール発見はこれらの手法のタスク分解の鍵となる要素である。
提案手法は,タスクの事前知識を必要とせずに,サブゴール発見に応用できる。
- 参考スコア(独自算出の注目度): 5.13730975608994
- License:
- Abstract: Reinforcement learning (RL) plays a major role in solving complex sequential decision-making tasks. Hierarchical and goal-conditioned RL are promising methods for dealing with two major problems in RL, namely sample inefficiency and difficulties in reward shaping. These methods tackle the mentioned problems by decomposing a task into simpler subtasks and temporally abstracting a task in the action space. One of the key components for task decomposition of these methods is subgoal discovery. We can use the subgoal states to define hierarchies of actions and also use them in decomposing complex tasks. Under the assumption that subgoal states are more unpredictable, we propose a free energy paradigm to discover them. This is achieved by using free energy to select between two spaces, the main space and an aggregation space. The $model \; changes$ from neighboring states to a given state shows the unpredictability of a given state, and therefore it is used in this paper for subgoal discovery. Our empirical results on navigation tasks like grid-world environments show that our proposed method can be applied for subgoal discovery without prior knowledge of the task. Our proposed method is also robust to the stochasticity of environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑なシーケンシャルな意思決定タスクの解決において重要な役割を果たしている。
階層的および目標条件付きRLは、RLにおける2つの主要な問題、すなわち、報酬形成におけるサンプルの非効率性と困難を扱うための有望な方法である。
これらの手法は、タスクを単純なサブタスクに分解し、アクション空間内のタスクを時間的に抽象化することで、上記の問題に対処する。
これらの手法のタスク分解における重要な要素の1つは、サブゴール発見である。
サブゴナルステートを使用してアクションの階層を定義したり、複雑なタスクを分解したりすることができます。
サブゴナル状態が予測不可能な仮定の下で、我々はそれらを発見する自由エネルギーパラダイムを提案する。
これは自由エネルギーを用いて主空間と集合空間の2つの空間を選択することで達成される。
モデル \; 隣り合う状態から与えられた状態への$の変化は、ある状態の予測不可能さを示すため、この論文ではサブゴール発見に使用される。
グリッドワールド環境のようなナビゲーションタスクに関する実証実験の結果,提案手法はタスクの事前知識を必要とせず,サブゴール探索に応用可能であることが示された。
提案手法は環境の確率性にも頑健である。
関連論文リスト
- Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文 参考訳(メタデータ) (2024-10-28T23:47:43Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint [36.970138281579686]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Reward Shaping with Dynamic Trajectory Aggregation [7.6146285961466]
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-04-13T13:07:48Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。