論文の概要: MAGIC: Learning Macro-Actions for Online POMDP Planning
- arxiv url: http://arxiv.org/abs/2011.03813v4
- Date: Thu, 1 Jul 2021 06:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:26:38.407201
- Title: MAGIC: Learning Macro-Actions for Online POMDP Planning
- Title(参考訳): MAGIC:オンラインPMDPプランニングのためのマクロアクションの学習
- Authors: Yiyuan Lee, Panpan Cai, David Hsu
- Abstract要約: MAGICは、オンラインプランナーのパフォーマンスをフィードバックとして、マクロアクションジェネレータをエンドツーエンドで学習する。
我々は、シミュレーションと実ロボットの両方において、複数の長期計画タスクにおいてMAGICを評価する。
- 参考スコア(独自算出の注目度): 14.156697390568617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The partially observable Markov decision process (POMDP) is a principled
general framework for robot decision making under uncertainty, but POMDP
planning suffers from high computational complexity, when long-term planning is
required. While temporally-extended macro-actions help to cut down the
effective planning horizon and significantly improve computational efficiency,
how do we acquire good macro-actions? This paper proposes Macro-Action
Generator-Critic (MAGIC), which performs offline learning of macro-actions
optimized for online POMDP planning. Specifically, MAGIC learns a macro-action
generator end-to-end, using an online planner's performance as the feedback.
During online planning, the generator generates on the fly situation-aware
macro-actions conditioned on the robot's belief and the environment context. We
evaluated MAGIC on several long-horizon planning tasks both in simulation and
on a real robot. The experimental results show that the learned macro-actions
offer significant benefits in online planning performance, compared with
primitive actions and handcrafted macro-actions.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でロボット決定を行うための原則的な一般的なフレームワークであるが、長期計画が必要な場合、POMDP計画は高い計算複雑性に悩まされる。
時間的に拡張されたマクロアクションは、効果的な計画の地平を縮小し、計算効率を大幅に改善するのに役立つが、どのようにして優れたマクロアクションを得るのか?
本稿では,オンラインpomdp計画に最適化されたマクロアクションのオフライン学習を行うマクロアクションジェネレータ・クリティック(magic)を提案する。
特に、MAGICは、オンラインプランナーのパフォーマンスをフィードバックとして、マクロアクションジェネレータをエンドツーエンドで学習する。
オンラインプランニング中、ジェネレータはロボットの信念と環境コンテキストに基づいて、フライ状況に応じたマクロアクションを生成する。
シミュレーションおよび実ロボットの長期計画作業におけるMAGICの評価を行った。
実験の結果,学習したマクロアクションは,プリミティブアクションや手作りマクロアクションと比較して,オンライン計画性能に有意なメリットがあることがわかった。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Large Language Models are Learnable Planners for Long-Term Recommendation [59.167795967630305]
即時利益と長期利益の両方の計画が、勧告においてますます重要になる。
既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。
本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:49:56Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - The Value of Planning for Infinite-Horizon Model Predictive Control [0.0]
現代のプランナーが使用する中間データ構造を近似値関数として解釈する方法を示す。
この値関数はMPCによって直接使用できることを示し、実行時により効率的で回復力のある振る舞いをもたらす。
論文 参考訳(メタデータ) (2021-04-07T02:21:55Z) - Knowledge-Based Hierarchical POMDPs for Task Planning [0.34998703934432684]
タスクプランニングの主な目標は、エージェントを初期状態から目標状態へと移動させる一連のアクションを構築することです。
ロボット工学では、アクションは通常いくつかの可能な結果があり、センサーがエラーで測定を行う傾向があるため、これは特に困難です。
本稿では,情報のモジュール化と再利用を促進するロボットとその環境に関する知識を符号化する手法を提案する。
論文 参考訳(メタデータ) (2021-03-19T05:45:05Z) - Efficient Planning in Large MDPs with Weak Linear Function Approximation [4.56877715768796]
大規模意思決定プロセス(MDP)は、MDPの状態を独立して計画アルゴリズムを必要とする。
線形値関数近似を用いたMDPの計画問題を考える。
論文 参考訳(メタデータ) (2020-07-13T04:40:41Z) - Efficient Black-Box Planning Using Macro-Actions with Focused Effects [35.688161278362735]
ヒューリスティックスは検索をより効率的にするが、ブラックボックスの計画にはゴールを意識する。
我々は、ゴール数をより正確にするマクロアクションを発見することによって、この制限を克服する方法を示す。
論文 参考訳(メタデータ) (2020-04-28T02:13:12Z) - Macro-Action-Based Deep Multi-Agent Reinforcement Learning [17.73081797556005]
本稿では,分散型および集中型マクロアクション値関数を学習するための2つのDeep Q-Network (DQN) に基づく手法を提案する。
ベンチマーク問題とより大きな領域の評価は、プリミティブアクションよりもマクロアクションによる学習の利点を示す。
論文 参考訳(メタデータ) (2020-04-18T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。