論文の概要: Embodied Active Learning of Relational State Abstractions for Bilevel
Planning
- arxiv url: http://arxiv.org/abs/2303.04912v1
- Date: Wed, 8 Mar 2023 22:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 16:48:47.271973
- Title: Embodied Active Learning of Relational State Abstractions for Bilevel
Planning
- Title(参考訳): 2レベル計画のための関係状態抽象化の具体化アクティブラーニング
- Authors: Amber Li, Tom Silver
- Abstract要約: 述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。
本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。
我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
- 参考スコア(独自算出の注目度): 6.1678491628787455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State abstraction is an effective technique for planning in robotics
environments with continuous states and actions, long task horizons, and sparse
feedback. In object-oriented environments, predicates are a particularly useful
form of state abstraction because of their compatibility with symbolic planners
and their capacity for relational generalization. However, to plan with
predicates, the agent must be able to interpret them in continuous environment
states (i.e., ground the symbols). Manually programming predicate
interpretations can be difficult, so we would instead like to learn them from
data. We propose an embodied active learning paradigm where the agent learns
predicate interpretations through online interaction with an expert. For
example, after taking actions in a block stacking environment, the agent may
ask the expert: "Is On(block1, block2) true?" From this experience, the agent
learns to plan: it learns neural predicate interpretations, symbolic planning
operators, and neural samplers that can be used for bilevel planning. During
exploration, the agent plans to learn: it uses its current models to select
actions towards generating informative expert queries. We learn predicate
interpretations as ensembles of neural networks and use their entropy to
measure the informativeness of potential queries. We evaluate this approach in
three robotic environments and find that it consistently outperforms six
baselines while exhibiting sample efficiency in two key metrics: number of
environment interactions, and number of queries to the expert. Code:
https://tinyurl.com/active-predicates
- Abstract(参考訳): 状態抽象化は、継続的な状態と行動、長いタスクの地平線、スパースフィードバックを持つロボット環境での計画に有効なテクニックである。
オブジェクト指向環境では、述語はシンボリックプランナーとの互換性と関係一般化の能力のために特に有用な状態抽象化形式である。
しかし、述語を計画するには、エージェントはそれらを連続した環境状態(すなわち記号を接地する)で解釈しなくてはならない。
手動で述語解釈をプログラミングするのは難しいため、データから学習したいと考えています。
本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。
例えば、ブロックスタック環境でアクションをした後、エージェントは専門家に「Is On(block1, block2) true?
この経験から、エージェントは計画を学ぶ:二段階計画に使用できる神経述語解釈、シンボリックプランニング演算子、神経サンプルを学習する。
調査中、エージェントは学習する: 現在のモデルを使用して、情報的な専門家クエリを生成するためのアクションを選択する。
我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
私たちはこのアプローチを3つのロボット環境で評価し,6つのベースラインを一貫して上回りながら,2つの重要な指標(環境インタラクションの数,エキスパートへのクエリ数)でサンプル効率を示す。
コード: https://tinyurl.com/active-predicates
関連論文リスト
- Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。
我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文 参考訳(メタデータ) (2022-08-17T21:58:19Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Deep compositional robotic planners that follow natural language
commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文 参考訳(メタデータ) (2020-02-12T19:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。