論文の概要: Learning with Expert Abstractions for Efficient Multi-Task Continuous Control
- arxiv url: http://arxiv.org/abs/2503.14809v1
- Date: Wed, 19 Mar 2025 00:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:21.015307
- Title: Learning with Expert Abstractions for Efficient Multi-Task Continuous Control
- Title(参考訳): 効率的なマルチタスク連続制御のためのエキスパート抽象化による学習
- Authors: Jeff Jewett, Sandhya Saisubramanian,
- Abstract要約: 連続したマルチタスク環境における意思決定は、計画のための正確なモデルを得るのが困難であることや、試行錯誤から純粋に学習することの非効率さによって、しばしば妨げられる。
本稿では,これらの制約に対処する階層的強化学習手法を提案する。
手続き的に生成した一連の連続制御環境に対する実証評価により,本手法は,サンプル効率,タスク完了率,複雑なタスクへのスケーラビリティ,新しいシナリオへの一般化の観点から,既存の階層的強化学習手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 5.796482272333648
- License:
- Abstract: Decision-making in complex, continuous multi-task environments is often hindered by the difficulty of obtaining accurate models for planning and the inefficiency of learning purely from trial and error. While precise environment dynamics may be hard to specify, human experts can often provide high-fidelity abstractions that capture the essential high-level structure of a task and user preferences in the target environment. Existing hierarchical approaches often target discrete settings and do not generalize across tasks. We propose a hierarchical reinforcement learning approach that addresses these limitations by dynamically planning over the expert-specified abstraction to generate subgoals to learn a goal-conditioned policy. To overcome the challenges of learning under sparse rewards, we shape the reward based on the optimal state value in the abstract model. This structured decision-making process enhances sample efficiency and facilitates zero-shot generalization. Our empirical evaluation on a suite of procedurally generated continuous control environments demonstrates that our approach outperforms existing hierarchical reinforcement learning methods in terms of sample efficiency, task completion rate, scalability to complex tasks, and generalization to novel scenarios.
- Abstract(参考訳): 複雑で連続的なマルチタスク環境における意思決定は、計画のための正確なモデルを得ることの難しさと、試行錯誤から純粋に学習する非効率さによって、しばしば妨げられる。
正確な環境力学は特定が難しいが、人間の専門家は、タスクの本質的な高レベルな構造と、ターゲット環境におけるユーザの嗜好をキャプチャする高忠実な抽象化をしばしば提供できる。
既存の階層的アプローチは、しばしば個別の設定をターゲットにし、タスクをまたいで一般化しない。
本稿では,これらの制約に対処する階層的強化学習手法を提案する。
スパース報酬下での学習の課題を克服するため、抽象モデルにおける最適状態値に基づいて報酬を定式化する。
この構造化決定プロセスは、サンプル効率を高め、ゼロショットの一般化を促進する。
手続き的に生成した一連の連続制御環境に対する実証評価により,本手法は,サンプル効率,タスク完了率,複雑なタスクへのスケーラビリティ,新しいシナリオへの一般化の観点から,既存の階層的強化学習手法よりも優れていることが示された。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Learning Abstract World Model for Value-preserving Planning with Options [11.254212901595523]
所与の時間的拡張行動の構造を利用して抽象マルコフ決定過程(MDP)を学習する。
我々は、これらのスキルによる計画が、抽象MDPにおける軌跡をシミュレートすることによって、元のMDPにおける有界値損失のポリシーをもたらすことを確実にするために必要な状態抽象化を特徴付ける。
目標をベースとしたナビゲーション環境では,連続的な抽象状態の計画が成功し,抽象モデル学習が計画と学習のサンプル効率を向上させることを示す。
論文 参考訳(メタデータ) (2024-06-22T13:41:02Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Discovering Hierarchical Achievements in Reinforcement Learning via
Contrastive Learning [17.28280896937486]
本稿では, エージェントが次の達成を予測する能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。
提案手法は,階層的な成果を見出すための強力な能力を示し,挑戦的なクラフト環境における最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-07T09:47:15Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。