論文の概要: GrASP: Gradient-Based Affordance Selection for Planning
- arxiv url: http://arxiv.org/abs/2202.04772v1
- Date: Tue, 8 Feb 2022 03:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 14:40:49.989708
- Title: GrASP: Gradient-Based Affordance Selection for Planning
- Title(参考訳): GrASP: 計画のためのグラディエントベースのアフォーマンス選択
- Authors: Vivek Veeriah, Zeyu Zheng, Richard Lewis, Satinder Singh
- Abstract要約: 学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。
本稿では,計画に有用な価格選択手法を提案する。
プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
- 参考スコア(独自算出の注目度): 25.548880832898757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning with a learned model is arguably a key component of intelligence.
There are several challenges in realizing such a component in large-scale
reinforcement learning (RL) problems. One such challenge is dealing effectively
with continuous action spaces when using tree-search planning (e.g., it is not
feasible to consider every action even at just the root node of the tree). In
this paper we present a method for selecting affordances useful for planning --
for learning which small number of actions/options from a continuous space of
actions/options to consider in the tree-expansion process during planning. We
consider affordances that are goal-and-state-conditional mappings to
actions/options as well as unconditional affordances that simply select
actions/options available in all states. Our selection method is gradient
based: we compute gradients through the planning procedure to update the
parameters of the function that represents affordances. Our empirical work
shows that it is feasible to learn to select both primitive-action and option
affordances, and that simultaneously learning to select affordances and
planning with a learned value-equivalent model can outperform model-free RL.
- Abstract(参考訳): 学習モデルによるプランニングは、間違いなくインテリジェンスの重要なコンポーネントです。
大規模強化学習(RL)問題において,そのようなコンポーネントを実現する上での課題がいくつかある。
そのような課題の1つは、木探索計画(例えば、木の根ノードだけでも全ての作用を考えることは不可能)を使用するとき、効果的に連続的な作用空間を扱うことである。
本稿では,計画中の木膨張過程において考慮すべきアクション/オプションの連続空間から,少ない数のアクション/オプションを学習するために,計画に有用なアプライアンスを選択する手法を提案する。
我々は、行動/オプションに対する目標条件と状態条件のマッピングと、すべての州で利用可能な行動/オプションを選択できる無条件の価格について検討する。
私たちの選択方法は勾配ベースで、計画手順を通じて勾配を計算し、代価を表す関数のパラメータを更新する。
我々の経験的研究は、プリミティブアクションとオプションアプライアンスの両方を選択することが学べることを示し、同時にアプライアンスを選択し、学習価値等価モデルで計画することが、モデルフリーのRLより優れていることを示している。
関連論文リスト
- Decision-Focused Learning to Predict Action Costs for Planning [6.729103498871947]
決定焦点学習(DFL)は最適化問題のパラメータを予測する学習に成功している。
本稿では, 自動計画のためのDFL導入の課題について検討し, アクションコストの予測について考察する。
論文 参考訳(メタデータ) (2024-08-13T13:14:54Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Learning To Cut By Looking Ahead: Cutting Plane Selection via Imitation
Learning [80.45697245527019]
我々は、最良限の改善をもたらすカットを明示的に目指している欲求選択規則が、カット選択に対して強い決定を下すことを示す。
本研究では,頭頂部の専門家を対象とした模擬学習のための新しいニューラルアーキテクチャ(NeuralCut)を提案する。
論文 参考訳(メタデータ) (2022-06-27T16:07:27Z) - Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation [41.460894569204065]
線形文脈マルコフ決定過程(MDP)の遺残条件における生涯強化学習(RL)について検討する。
本稿では, UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T06:53:28Z) - Reward-Respecting Subtasks for Model-Based Reinforcement Learning [13.906158484935098]
強化学習には、状態と時間の抽象的な世界のモデルによる計画を含めなければならない。
この理由の1つは、可能なオプションの空間が膨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬参照オプションよりも、計画立案に有用であることを示す。
論文 参考訳(メタデータ) (2022-02-07T19:09:27Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Think Too Fast Nor Too Slow: The Computational Trade-off Between
Planning And Reinforcement Learning [6.26592851697969]
計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。
計画と学習のトレードオフが重要であることを示す。
提案手法は,探索時間(長期計画)からモデルフリーなRL(計画なし)まで多岐にわたる新しい計画学習アルゴリズムのスペクトルを同定し,その中間に最適な性能を実現する。
論文 参考訳(メタデータ) (2020-05-15T08:20:08Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。