論文の概要: AI planning in the imagination: High-level planning on learned abstract
search spaces
- arxiv url: http://arxiv.org/abs/2308.08693v2
- Date: Sun, 3 Dec 2023 04:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:30:46.563785
- Title: AI planning in the imagination: High-level planning on learned abstract
search spaces
- Title(参考訳): 想像の中のAIプランニング:学習した抽象検索空間の高レベルプランニング
- Authors: Carlos Martin, Tuomas Sandholm
- Abstract要約: 我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
- 参考スコア(独自算出の注目度): 68.75684174531962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search and planning algorithms have been a cornerstone of artificial
intelligence since the field's inception. Giving reinforcement learning agents
the ability to plan during execution time has resulted in significant
performance improvements in various domains. However, in real-world
environments, the model with respect to which the agent plans has been
constrained to be grounded in the real environment itself, as opposed to a more
abstract model which allows for planning over compound actions and behaviors.
We propose a new method, called PiZero, that gives an agent the ability to plan
in an abstract search space that the agent learns during training, which is
completely decoupled from the real environment. Unlike prior approaches, this
enables the agent to perform high-level planning at arbitrary timescales and
reason in terms of compound or temporally-extended actions, which can be useful
in environments where large numbers of base-level micro-actions are needed to
perform relevant macro-actions. In addition, our method is more general than
comparable prior methods because it seamlessly handles settings with continuous
action spaces, combinatorial action spaces, and partial observability. We
evaluate our method on multiple domains, including the traveling salesman
problem, Sokoban, 2048, the facility location problem, and Pacman.
Experimentally, it outperforms comparable prior methods without assuming access
to an environment simulator at execution time.
- Abstract(参考訳): 探索と計画のアルゴリズムは、この分野の誕生以来、人工知能の基盤となっている。
強化学習エージェントに実行時に計画する能力を与えると、さまざまなドメインのパフォーマンスが大幅に向上する。
しかし、現実世界の環境では、エージェント計画に関するモデルは、複合的な動作や振る舞いを計画できるより抽象的なモデルとは対照的に、実際の環境自体に基礎を置くように制限されている。
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが実際の環境から完全に切り離されたプランニングを行うことのできる,PiZeroと呼ばれる新しい手法を提案する。
従来の手法とは異なり、エージェントは任意の時間スケールでハイレベルな計画を実行でき、複合的あるいは時間的に拡張されたアクションの観点からは、関連するマクロアクションを実行するために多数のベースレベルのマイクロアクションを必要とする環境において有用である。
さらに,本手法は,連続的動作空間,組合せ的動作空間,部分的可観測性を備えた設定をシームレスに処理するため,従来の手法よりも汎用的である。
本手法は,旅行セールスマン問題,ソコバン,2048年,施設立地問題,パックマンなど,複数のドメインで評価した。
実験的には、実行時に環境シミュレータへのアクセスを仮定することなく、同等の先行メソッドより優れている。
関連論文リスト
- ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。
ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。
凍結重量のみに依存するため、勾配更新は不要である。
論文 参考訳(メタデータ) (2024-10-11T20:58:51Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Reinforcement Learning for Location-Aware Scheduling [1.0660480034605238]
倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。
位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。
また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
論文 参考訳(メタデータ) (2022-03-07T15:51:00Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - PackIt: A Virtual Environment for Geometric Planning [68.79816936618454]
PackItは、幾何学的計画を行う能力を評価し、潜在的に学習する仮想環境である。
進化的アルゴリズムを用いて,一組の難解なパッケージングタスクを構築した。
論文 参考訳(メタデータ) (2020-07-21T22:51:17Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。