論文の概要: Planning in the imagination: High-level planning on learned abstract
search spaces
- arxiv url: http://arxiv.org/abs/2308.08693v1
- Date: Wed, 16 Aug 2023 22:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:33:34.097424
- Title: Planning in the imagination: High-level planning on learned abstract
search spaces
- Title(参考訳): 想像のプランニング:学習した抽象検索空間の高レベルプランニング
- Authors: Carlos Martin, Tuomas Sandholm
- Abstract要約: PiZeroはエージェントに、実際の環境から完全に切り離された独自の生成の抽象的な検索空間を計画する機能を提供する。
本手法はナビゲーションタスクやソコバンを含む複数の領域で評価する。
- 参考スコア(独自算出の注目度): 68.75684174531962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method, called PiZero, that gives an agent the ability to
plan in an abstract search space of its own creation that is completely
decoupled from the real environment. Unlike prior approaches, this enables the
agent to perform high-level planning at arbitrary timescales and reason in
terms of compound or temporally-extended actions, which can be useful in
environments where large numbers of base-level micro-actions are needed to
perform relevant macro-actions. In addition, our method is more general than
comparable prior methods because it handles settings with continuous action
spaces and partial observability. We evaluate our method on multiple domains,
including navigation tasks and Sokoban. Experimentally, it outperforms
comparable prior methods without assuming access to an environment simulator.
- Abstract(参考訳): 本稿では,エージェントに対して,実環境から完全に切り離された,自己生成の抽象的な探索空間を計画する能力を与える,pizeroと呼ばれる新しい手法を提案する。
従来の手法とは異なり、エージェントは任意の時間スケールでハイレベルな計画を実行でき、複合的あるいは時間的に拡張されたアクションの観点からは、関連するマクロアクションを実行するために多数のベースレベルのマイクロアクションを必要とする環境において有用である。
さらに,本手法は連続的な動作空間と部分的可観測性を備えた設定を扱うため,従来の手法よりも一般的である。
本手法はナビゲーションタスクやソコバンを含む複数のドメインで評価する。
実験的に、環境シミュレータへのアクセスを前提とせずに、同等の先行メソッドより優れている。
関連論文リスト
- ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。
ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。
凍結重量のみに依存するため、勾配更新は不要である。
論文 参考訳(メタデータ) (2024-10-11T20:58:51Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Reinforcement Learning for Location-Aware Scheduling [1.0660480034605238]
倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。
位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。
また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
論文 参考訳(メタデータ) (2022-03-07T15:51:00Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - PackIt: A Virtual Environment for Geometric Planning [68.79816936618454]
PackItは、幾何学的計画を行う能力を評価し、潜在的に学習する仮想環境である。
進化的アルゴリズムを用いて,一組の難解なパッケージングタスクを構築した。
論文 参考訳(メタデータ) (2020-07-21T22:51:17Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。