Fugu-MT 論文翻訳(概要): Planning in the imagination: High-level planning on learned abstract search spaces

論文の概要: Planning in the imagination: High-level planning on learned abstract search spaces

arxiv url: http://arxiv.org/abs/2308.08693v1
Date: Wed, 16 Aug 2023 22:47:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 18:33:34.097424
Title: Planning in the imagination: High-level planning on learned abstract search spaces
Title（参考訳）: 想像のプランニング:学習した抽象検索空間の高レベルプランニング
Authors: Carlos Martin, Tuomas Sandholm
Abstract要約: PiZeroはエージェントに、実際の環境から完全に切り離された独自の生成の抽象的な検索空間を計画する機能を提供する。本手法はナビゲーションタスクやソコバンを含む複数の領域で評価する。
参考スコア（独自算出の注目度）: 68.75684174531962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new method, called PiZero, that gives an agent the ability to plan in an abstract search space of its own creation that is completely decoupled from the real environment. Unlike prior approaches, this enables the agent to perform high-level planning at arbitrary timescales and reason in terms of compound or temporally-extended actions, which can be useful in environments where large numbers of base-level micro-actions are needed to perform relevant macro-actions. In addition, our method is more general than comparable prior methods because it handles settings with continuous action spaces and partial observability. We evaluate our method on multiple domains, including navigation tasks and Sokoban. Experimentally, it outperforms comparable prior methods without assuming access to an environment simulator.
Abstract（参考訳）: 本稿では,エージェントに対して,実環境から完全に切り離された,自己生成の抽象的な探索空間を計画する能力を与える,pizeroと呼ばれる新しい手法を提案する。従来の手法とは異なり、エージェントは任意の時間スケールでハイレベルな計画を実行でき、複合的あるいは時間的に拡張されたアクションの観点からは、関連するマクロアクションを実行するために多数のベースレベルのマイクロアクションを必要とする環境において有用である。さらに,本手法は連続的な動作空間と部分的可観測性を備えた設定を扱うため,従来の手法よりも一般的である。本手法はナビゲーションタスクやソコバンを含む複数のドメインで評価する。実験的に、環境シミュレータへのアクセスを前提とせずに、同等の先行メソッドより優れている。

関連論文リスト

Adapting Reinforcement Learning for Path Planning in Constrained Parking Scenarios [6.734318562862061]
駐車場におけるリアルタイム経路計画のためのDeep Reinforcement Learningフレームワークを提案する。古典的なプランナーとは異なり、我々の解は理想的で構造化された知覚を必要としない。テスト時には、ポリシーは各ステップで1つのフォワードパスを通じてアクションを生成します。
論文参考訳（メタデータ） (2026-01-30T04:35:49Z)
Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文参考訳（メタデータ） (2025-05-22T09:08:47Z)
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement [81.30121762971473]
SynWorldは、エージェントが自律的に環境を探索し、最適化し、アクションに対する理解を深めることを可能にするフレームワークである。実験の結果,SynWorldは新しい環境下での行動知識の学習に効果的で汎用的なアプローチであることを実証した。
論文参考訳（メタデータ） (2025-04-04T16:10:57Z)
ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。 ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。凍結重量のみに依存するため、勾配更新は不要である。
論文参考訳（メタデータ） (2024-10-11T20:58:51Z)
Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文参考訳（メタデータ） (2024-06-17T17:55:40Z)
Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-22T03:44:04Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2022-10-07T20:28:25Z)
Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文参考訳（メタデータ） (2022-10-03T10:21:57Z)
Inventing Relational State and Action Abstractions for Effective and Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文参考訳（メタデータ） (2022-03-17T22:13:09Z)
Reinforcement Learning for Location-Aware Scheduling [1.0660480034605238]
倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
論文参考訳（メタデータ） (2022-03-07T15:51:00Z)
POMP: Pomcp-based Online Motion Planning for active visual search in indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文参考訳（メタデータ） (2020-09-17T08:23:50Z)
PackIt: A Virtual Environment for Geometric Planning [68.79816936618454]
PackItは、幾何学的計画を行う能力を評価し、潜在的に学習する仮想環境である。進化的アルゴリズムを用いて,一組の難解なパッケージングタスクを構築した。
論文参考訳（メタデータ） (2020-07-21T22:51:17Z)
Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文参考訳（メタデータ） (2020-01-08T04:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。