論文の概要: A tale of two goals: leveraging sequentiality in multi-goal scenarios
- arxiv url: http://arxiv.org/abs/2503.21677v1
- Date: Thu, 27 Mar 2025 16:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:39.444083
- Title: A tale of two goals: leveraging sequentiality in multi-goal scenarios
- Title(参考訳): 多目標シナリオにおける逐次性を活用した2つの目標の物語
- Authors: Olivier Serris, Stéphane Doncieux, Olivier Sigaud,
- Abstract要約: 目的が現在の目標だけでなく,その後の目標に到達したポリシを優先する,マルコフ決定プロセス(MDP)の2つの例を紹介する。
第一にエージェントは現在のゴールと最終ゴールの両方で条件付けされ、第二に、次の2つのゴールで条件付けされる。
標準GC-MDPと提案MDPの両方でTD3+HERでトレーニングされたポリシーを評価することで、ほとんどの場合、次の2つの目標を条件付けすることで安定性とサンプル効率が向上することを示す。
- 参考スコア(独自算出の注目度): 6.503927447834868
- License:
- Abstract: Several hierarchical reinforcement learning methods leverage planning to create a graph or sequences of intermediate goals, guiding a lower-level goal-conditioned (GC) policy to reach some final goals. The low-level policy is typically conditioned on the current goal, with the aim of reaching it as quickly as possible. However, this approach can fail when an intermediate goal can be reached in multiple ways, some of which may make it impossible to continue toward subsequent goals. To address this issue, we introduce two instances of Markov Decision Process (MDP) where the optimization objective favors policies that not only reach the current goal but also subsequent ones. In the first, the agent is conditioned on both the current and final goals, while in the second, it is conditioned on the next two goals in the sequence. We conduct a series of experiments on navigation and pole-balancing tasks in which sequences of intermediate goals are given. By evaluating policies trained with TD3+HER on both the standard GC-MDP and our proposed MDPs, we show that, in most cases, conditioning on the next two goals improves stability and sample efficiency over other approaches.
- Abstract(参考訳): いくつかの階層的な強化学習手法は、計画を利用して中間目標のグラフやシーケンスを作成し、いくつかの最終目標を達成するために低レベルの目標条件付き(GC)ポリシーを導く。
低レベルのポリシーは、通常、できるだけ早くそれに到達することを目的として、現在の目標に条件付けられています。
しかし、この方法は複数の方法で中間目標に到達することができれば失敗する可能性がある。
この問題に対処するために、最適化目標が現在の目標だけでなく、その後の目標に到達したポリシーを優先する、マルコフ決定プロセス(MDP)の2つの事例を紹介します。
第一にエージェントは現在のゴールと最終ゴールの両方で条件付けされ、第二に、次の2つのゴールで条件付けされる。
我々は、中間目標のシーケンスが与えられたナビゲーションおよびポールバランスタスクに関する一連の実験を行う。
標準GC-MDPと提案MDPの両方でTD3+HERでトレーニングされたポリシーを評価することで、ほとんどの場合、次の2つの目標を条件付けすることで、他のアプローチよりも安定性とサンプル効率が向上することを示す。
関連論文リスト
- GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - C3PO: Learning to Achieve Arbitrary Goals via Massively Entropic
Pretraining [47.87921493422219]
任意の位置とポーズを達成可能なポリシーを学習する手法を提案する。
このようなポリシーにより、制御が容易になり、下流タスクのキービルディングブロックとして再利用できる。
論文 参考訳(メタデータ) (2022-11-07T13:02:40Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph [21.260858893505183]
目標グラフ(GRG)を用いた新しい2層階層学習手法を提案する。
我々のGRGはディリクレカテゴリーのプロセスを通じて、ゴール空間におけるすべてのゴールの根底にある関係を捉えます。
実験の結果,我々のアプローチは未発見の環境と新しい目標の両方において優れた一般化を示すことがわかった。
論文 参考訳(メタデータ) (2021-03-01T23:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。