論文の概要: Planning for Novelty: Width-Based Algorithms for Common Problems in
Control, Planning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04866v1
- Date: Wed, 9 Jun 2021 07:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 04:58:34.018952
- Title: Planning for Novelty: Width-Based Algorithms for Common Problems in
Control, Planning and Reinforcement Learning
- Title(参考訳): 新展開計画--制御・計画・強化学習における共通問題に対する幅ベースアルゴリズム
- Authors: Nir Lipovetzky
- Abstract要約: 幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を探索する。
これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されている。
- 参考スコア(独自算出の注目度): 6.053629733936546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Width-based algorithms search for solutions through a general definition of
state novelty. These algorithms have been shown to result in state-of-the-art
performance in classical planning, and have been successfully applied to
model-based and model-free settings where the dynamics of the problem are given
through simulation engines. Width-based algorithms performance is understood
theoretically through the notion of planning width, providing polynomial
guarantees on their runtime and memory consumption. To facilitate synergies
across research communities, this paper summarizes the area of width-based
planning, and surveys current and future research directions.
- Abstract(参考訳): 幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を求める。
これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されており、シミュレーションエンジンによって問題のダイナミクスが与えられるモデルベースおよびモデルフリーの設定にうまく適用されている。
幅ベースのアルゴリズムのパフォーマンスは、計画幅の概念を通じて理論的に理解され、ランタイムとメモリ消費の多項式保証を提供する。
本稿では,研究コミュニティ間のシナジーを促進するために,幅ベースの計画の領域をまとめ,現在と将来の研究方向について調査する。
関連論文リスト
- Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Neural Motion Planning for Autonomous Parking [6.1805402105389895]
本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。
提案手法は与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2021-11-12T14:29:38Z) - Goal Agnostic Planning using Maximum Likelihood Paths in Hypergraph
World Models [1.370633147306388]
本稿では,ハイパーグラフに基づく機械学習アルゴリズム,データ構造駆動型メンテナンス手法,およびDijkstraのアルゴリズムの確率的応用に基づく計画アルゴリズムを提案する。
このアルゴリズムが問題空間内の最適解を決定すること、数学的に有界な学習性能を証明し、時間を通してシステム状態の進行を解析する数学的モデルを提供する。
論文 参考訳(メタデータ) (2021-10-18T16:22:33Z) - A Unified View of Algorithms for Path Planning Using Probabilistic
Inference on Factor Graphs [2.4874504720536317]
この研究は、様々なコスト関数から生じる特定の再帰について考察し、スコープに類似しているように見えるが、少なくとも典型的な経路計画問題に適用した場合に違いがある。
確率空間とログ空間の両方で提示されるこの統一されたアプローチは、Sum-product、Max-product、Dynamic Programming、混合Reward/Entropy基準に基づくアルゴリズムを含む非常に一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2021-06-19T07:13:15Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z) - Continuous Control for Searching and Planning with a Learned Model [5.196149362684628]
計画機能を備えた意思決定エージェントは、Chess、Shogi、Goといった挑戦的なドメインで大きな成功を収めています。
研究者らは環境との相互作用を通じて動的モデルを学ぶことができるMuZeroアルゴリズムを提案した。
提案アルゴリズムは,最先端のモデルフリー深部強化学習アルゴリズムであるソフトアクター・クリティック(SAC)アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-12T19:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。