Fugu-MT 論文翻訳(概要): Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot Transfer

論文の概要: Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot Transfer

arxiv url: http://arxiv.org/abs/2007.02527v1
Date: Mon, 6 Jul 2020 05:13:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 02:37:41.497982
Title: Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot Transfer
Title（参考訳）: ジャンプオペレータープランニング:ゴールコンディショニングポリシーアンサンブルとゼロショット転送
Authors: Thomas J. Ringstrom, Mohammadhosein Hasanbeig, Alessandro Abate
Abstract要約: 本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
参考スコア（独自算出の注目度）: 71.44215606325005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Hierarchical Control, compositionality, abstraction, and task-transfer are crucial for designing versatile algorithms which can solve a variety of problems with maximal representational reuse. We propose a novel hierarchical and compositional framework called Jump-Operator Dynamic Programming for quickly computing solutions within a super-exponential space of sequential sub-goal tasks with ordering constraints, while also providing a fast linearly-solvable algorithm as an implementation. This approach involves controlling over an ensemble of reusable goal-conditioned polices functioning as temporally extended actions, and utilizes transition operators called feasibility functions, which are used to summarize initial-to-final state dynamics of the polices. Consequently, the added complexity of grounding a high-level task space onto a larger ambient state-space can be mitigated by optimizing in a lower-dimensional subspace defined by the grounding, substantially improving the scalability of the algorithm while effecting transferable solutions. We then identify classes of objective functions on this subspace whose solutions are invariant to the grounding, resulting in optimal zero-shot transfer.
Abstract（参考訳）: 階層制御では、構成性、抽象化、タスクトランスファーは、最大表現再利用で様々な問題を解決できる汎用アルゴリズムの設計に不可欠である。本稿では,命令制約を伴う逐次サブゴールタスクの超指数空間における解を高速に計算する,Jump-Operator Dynamic Programmingと呼ばれる新しい階層的・構成的フレームワークを提案する。このアプローチでは、時間的に拡張された行動として機能する再利用可能な目標条件付き警察のアンサンブルを制御し、警察の初期から最終状態のダイナミクスを要約するために使用されるファシビリティ機能と呼ばれる遷移演算子を利用する。これにより、接地によって定義される低次元部分空間を最適化し、転送可能な解に影響を与えながらアルゴリズムのスケーラビリティを実質的に向上させることにより、高レベルなタスク空間をより大きな環境空間に接地する複雑さを軽減できる。次に、この部分空間上の対象関数のクラスを同定し、その解は接地に不変であり、最適なゼロショット転送となる。

関連論文リスト

Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文参考訳（メタデータ） (2025-03-01T21:25:21Z)
A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [66.61399765513383]
We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。 2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文参考訳（メタデータ） (2024-06-14T15:59:36Z)
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-08T23:42:49Z)
Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文参考訳（メタデータ） (2023-02-01T08:50:48Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
A Globally Convergent Evolutionary Strategy for Stochastic Constrained Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文参考訳（メタデータ） (2022-02-21T17:04:51Z)
On Constraints in First-Order Optimization: A View from Non-Smooth Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文参考訳（メタデータ） (2021-07-17T11:45:13Z)
MPC-MPNet: Model-Predictive Motion Planning Networks for Fast, Near-Optimal Planning under Kinodynamic Constraints [15.608546987158613]
Kinodynamic Motion Planning (KMP) は、ロボットの動きを同時に運動学や力学の制約を受ける計算である。ほぼ最適経路の解を求める,スケーラブルで模倣可能なモデル予測型運動計画ネットワークフレームワークを提案する。提案アルゴリズムは, 時間, 経路特性, 既存手法に対する成功率の大幅な改善を示す結果から, 乱雑な, キノダイナミックに制約された, 不安定な計画上の問題に対して評価を行う。
論文参考訳（メタデータ） (2021-01-17T23:07:04Z)
Planning with Submodular Objective Functions [118.0376288522372]
準モジュラー目的関数を用いて計画を行い、累積報酬を最大化する代わりに、劣モジュラー関数によって誘導される値の最大化を目標とする。本フレームワークは, 基本性制約を特別な場合として, 標準計画と準モジュラー目標を仮定する。
論文参考訳（メタデータ） (2020-10-22T16:55:12Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)
A Novel Multi-Agent System for Complex Scheduling Problems [2.294014185517203]
本稿では,様々な問題領域に適用可能なマルチエージェントシステムの概念と実装について述べる。提案手法の有効性を示すため,NP-hardスケジューリング問題をシミュレートする。本稿では,レイアウトの複雑さの低減,複雑なシステムの制御の改善,拡張性など,エージェントベースのアプローチの利点を強調した。
論文参考訳（メタデータ） (2020-04-20T14:04:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。