論文の概要: CAMPs: Learning Context-Specific Abstractions for Efficient Planning in
Factored MDPs
- arxiv url: http://arxiv.org/abs/2007.13202v3
- Date: Sun, 8 Nov 2020 00:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 19:44:50.979141
- Title: CAMPs: Learning Context-Specific Abstractions for Efficient Planning in
Factored MDPs
- Title(参考訳): CAMPs: 意思決定型MDPにおける効率的なプランニングのためのコンテキスト特異的抽象化学習
- Authors: Rohan Chitnis, Tom Silver, Beomjoon Kim, Leslie Pack Kaelbling, Tomas
Lozano-Perez
- Abstract要約: 一般的なメタプランニング戦略は、エージェントが考慮した状態や行動に制約を課すことを学ぶことである。
本稿では,効率的な計画を立てることのできる文脈固有の抽象マルコフ決定プロセスを提案する。
学習したCAMPでベースラインを一貫して上回る計画を立てています。
- 参考スコア(独自算出の注目度): 32.15589254223466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-planning, or learning to guide planning from experience, is a promising
approach to improving the computational cost of planning. A general
meta-planning strategy is to learn to impose constraints on the states
considered and actions taken by the agent. We observe that (1) imposing a
constraint can induce context-specific independences that render some aspects
of the domain irrelevant, and (2) an agent can take advantage of this fact by
imposing constraints on its own behavior. These observations lead us to propose
the context-specific abstract Markov decision process (CAMP), an abstraction of
a factored MDP that affords efficient planning. We then describe how to learn
constraints to impose so the CAMP optimizes a trade-off between rewards and
computational cost. Our experiments consider five planners across four domains,
including robotic navigation among movable obstacles (NAMO), robotic task and
motion planning for sequential manipulation, and classical planning. We find
planning with learned CAMPs to consistently outperform baselines, including
Stilman's NAMO-specific algorithm. Video: https://youtu.be/wTXt6djcAd4 Code:
https://git.io/JTnf6
- Abstract(参考訳): メタプランニング(meta-planning)は、計画の計算コストを改善するための有望なアプローチである。
一般的なメタ計画戦略は、エージェントが考慮した状態とアクションに制約を課すことを学ぶことである。
我々は,(1)制約を課すことは,ドメインのいくつかの側面を無関係に表現するコンテキスト固有の独立性を誘導し,(2)エージェントが自身の行動に制約を課すことで,この事実を活用できることを観察する。
これらの観察結果から,効率的な計画を行うための因子的MDPの抽象化である文脈特異的抽象マルコフ決定プロセス(CAMP)を提案する。
次に、CAMPが報酬と計算コストのトレードオフを最適化できるように、制約を課す方法を説明する。
実験では,移動障害物(namo)間のロボットナビゲーション,ロボットタスク,シーケンシャル操作のためのモーションプランニング,クラシックプランニングなど,4領域にまたがる5つのプランナーについて検討した。
我々は学習したCAMPを用いて、StilmanのNAMO固有のアルゴリズムを含むベースラインを一貫して上回る計画を立てている。
ビデオ: https://youtu.be/wTXt6djcAd4コード: https://git.io/JTnf6
関連論文リスト
- Projection Abstractions in Planning Under the Lenses of Abstractions for MDPs [1.46184883556683]
抽象化の概念は、AIプランニングと割引マルコフ決定プロセス(MDP)の両方の文脈で独立に開発された。
本稿では, ディスカウントMDPのレンズを用いた計画計画における投影抽象化について考察する。
古典的あるいは確率的計画手法に基づいて構築されたプロジェクション抽象化から始めて、ディスカウントされたMDPで利用可能な抽象化フレームワークの下で、同じ抽象化がどのように得られるかを示す。
論文 参考訳(メタデータ) (2024-12-03T17:43:28Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability [58.75803543245372]
タスク・アンド・モーション・プランニング(TAMP)アプローチは多段階自律ロボット操作の計画に適している。
本稿では,TAMPシステムを用いた拡散モデルの構築により,これらの制限を克服することを提案する。
古典的TAMP, 生成モデリング, 潜伏埋め込みの組み合わせによって, 多段階制約に基づく推論が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-22T20:40:24Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Visual scoping operations for physical assembly [0.0]
本稿では,次のサブゴールとして空間領域を交互に定義することで,計画と行動のインターリーブを行う視覚スコープを提案する。
ビジュアルスコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T10:50:35Z) - Learning Symbolic Operators for Task and Motion Planning [29.639902380586253]
統合されたタスクとモーションプランナー(TAMP)は、モーションレベルの決定とタスクレベルの計画実現性の複雑な相互作用を処理します。
TAMPアプローチは、タスクレベルの検索を導くためにドメイン固有のシンボリック演算子に依存し、計画を効率的にします。
演算子学習のためのボトムアップリレーショナル学習法を提案し,TAMPシステムの計画に学習した演算子をどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-02-28T19:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。