論文の概要: Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer
- arxiv url: http://arxiv.org/abs/2007.02527v1
- Date: Mon, 6 Jul 2020 05:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-13 02:37:41.497982
- Title: Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer
- Title(参考訳): ジャンプオペレータープランニング:ゴールコンディショニングポリシーアンサンブルとゼロショット転送
- Authors: Thomas J. Ringstrom, Mohammadhosein Hasanbeig, Alessandro Abate
- Abstract要約: 本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
- 参考スコア(独自算出の注目度): 71.44215606325005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Hierarchical Control, compositionality, abstraction, and task-transfer are
crucial for designing versatile algorithms which can solve a variety of
problems with maximal representational reuse. We propose a novel hierarchical
and compositional framework called Jump-Operator Dynamic Programming for
quickly computing solutions within a super-exponential space of sequential
sub-goal tasks with ordering constraints, while also providing a fast
linearly-solvable algorithm as an implementation. This approach involves
controlling over an ensemble of reusable goal-conditioned polices functioning
as temporally extended actions, and utilizes transition operators called
feasibility functions, which are used to summarize initial-to-final state
dynamics of the polices. Consequently, the added complexity of grounding a
high-level task space onto a larger ambient state-space can be mitigated by
optimizing in a lower-dimensional subspace defined by the grounding,
substantially improving the scalability of the algorithm while effecting
transferable solutions. We then identify classes of objective functions on this
subspace whose solutions are invariant to the grounding, resulting in optimal
zero-shot transfer.
- Abstract(参考訳): 階層制御では、構成性、抽象化、タスクトランスファーは、最大表現再利用で様々な問題を解決できる汎用アルゴリズムの設計に不可欠である。
本稿では,命令制約を伴う逐次サブゴールタスクの超指数空間における解を高速に計算する,Jump-Operator Dynamic Programmingと呼ばれる新しい階層的・構成的フレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する再利用可能な目標条件付き警察のアンサンブルを制御し、警察の初期から最終状態のダイナミクスを要約するために使用されるファシビリティ機能と呼ばれる遷移演算子を利用する。
これにより、接地によって定義される低次元部分空間を最適化し、転送可能な解に影響を与えながらアルゴリズムのスケーラビリティを実質的に向上させることにより、高レベルなタスク空間をより大きな環境空間に接地する複雑さを軽減できる。
次に、この部分空間上の対象関数のクラスを同定し、その解は接地に不変であり、最適なゼロショット転送となる。
関連論文リスト
- A Unified Theory of Compositionality, Modularity, and Interpretability in Markov Decision Processes [1.3044677039636754]
我々は、新しい報酬のないマルコフ決定プロセスのためのオプションカーネルベルマン方程式(OKBE)を紹介する。
OKBEは、状態時オプションカーネル(STOK)と呼ばれる予測マップを直接構築し、最適化し、ゴールを達成する確率を最大化する。
我々は、報酬-最大化は構成性、モジュラリティ、解釈可能性の性質と矛盾していると主張する。
論文 参考訳(メタデータ) (2025-06-11T08:21:22Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [66.61399765513383]
We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。
2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文 参考訳(メタデータ) (2024-06-14T15:59:36Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments [3.7660066212240753]
部分的に知られている環境での自律エージェントの動作計画は難しい問題である。
本稿では,モデルのない強化学習手法を提案する。
提案手法は, 環境, 行動, 観測の不確実性に効果的に対処できることを示す。
論文 参考訳(メタデータ) (2023-04-30T19:57:39Z) - Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:42:49Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。
しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文 参考訳(メタデータ) (2022-02-21T17:04:51Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z) - Extended Task and Motion Planning of Long-horizon Robot Manipulation [28.951816622135922]
タスクとモーション計画(TAMP)には、シンボリック推論とメトリックモーション計画の統合が必要です。
ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。
本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2021-03-09T14:44:08Z) - MPC-MPNet: Model-Predictive Motion Planning Networks for Fast,
Near-Optimal Planning under Kinodynamic Constraints [15.608546987158613]
Kinodynamic Motion Planning (KMP) は、ロボットの動きを同時に運動学や力学の制約を受ける計算である。
ほぼ最適経路の解を求める,スケーラブルで模倣可能なモデル予測型運動計画ネットワークフレームワークを提案する。
提案アルゴリズムは, 時間, 経路特性, 既存手法に対する成功率の大幅な改善を示す結果から, 乱雑な, キノダイナミックに制約された, 不安定な計画上の問題に対して評価を行う。
論文 参考訳(メタデータ) (2021-01-17T23:07:04Z) - Planning with Submodular Objective Functions [118.0376288522372]
準モジュラー目的関数を用いて計画を行い、累積報酬を最大化する代わりに、劣モジュラー関数によって誘導される値の最大化を目標とする。
本フレームワークは, 基本性制約を特別な場合として, 標準計画と準モジュラー目標を仮定する。
論文 参考訳(メタデータ) (2020-10-22T16:55:12Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z) - A Novel Multi-Agent System for Complex Scheduling Problems [2.294014185517203]
本稿では,様々な問題領域に適用可能なマルチエージェントシステムの概念と実装について述べる。
提案手法の有効性を示すため,NP-hardスケジューリング問題をシミュレートする。
本稿では,レイアウトの複雑さの低減,複雑なシステムの制御の改善,拡張性など,エージェントベースのアプローチの利点を強調した。
論文 参考訳(メタデータ) (2020-04-20T14:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。