Fugu-MT 論文翻訳(概要): Embodied Active Learning of Relational State Abstractions for Bilevel Planning

論文の概要: Embodied Active Learning of Relational State Abstractions for Bilevel Planning

arxiv url: http://arxiv.org/abs/2303.04912v1
Date: Wed, 8 Mar 2023 22:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 16:48:47.271973
Title: Embodied Active Learning of Relational State Abstractions for Bilevel Planning
Title（参考訳）: 2レベル計画のための関係状態抽象化の具体化アクティブラーニング
Authors: Amber Li, Tom Silver
Abstract要約: 述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
参考スコア（独自算出の注目度）: 6.1678491628787455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State abstraction is an effective technique for planning in robotics environments with continuous states and actions, long task horizons, and sparse feedback. In object-oriented environments, predicates are a particularly useful form of state abstraction because of their compatibility with symbolic planners and their capacity for relational generalization. However, to plan with predicates, the agent must be able to interpret them in continuous environment states (i.e., ground the symbols). Manually programming predicate interpretations can be difficult, so we would instead like to learn them from data. We propose an embodied active learning paradigm where the agent learns predicate interpretations through online interaction with an expert. For example, after taking actions in a block stacking environment, the agent may ask the expert: "Is On(block1, block2) true?" From this experience, the agent learns to plan: it learns neural predicate interpretations, symbolic planning operators, and neural samplers that can be used for bilevel planning. During exploration, the agent plans to learn: it uses its current models to select actions towards generating informative expert queries. We learn predicate interpretations as ensembles of neural networks and use their entropy to measure the informativeness of potential queries. We evaluate this approach in three robotic environments and find that it consistently outperforms six baselines while exhibiting sample efficiency in two key metrics: number of environment interactions, and number of queries to the expert. Code: https://tinyurl.com/active-predicates
Abstract（参考訳）: 状態抽象化は、継続的な状態と行動、長いタスクの地平線、スパースフィードバックを持つロボット環境での計画に有効なテクニックである。オブジェクト指向環境では、述語はシンボリックプランナーとの互換性と関係一般化の能力のために特に有用な状態抽象化形式である。しかし、述語を計画するには、エージェントはそれらを連続した環境状態(すなわち記号を接地する)で解釈しなくてはならない。手動で述語解釈をプログラミングするのは難しいため、データから学習したいと考えています。本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。例えば、ブロックスタック環境でアクションをした後、エージェントは専門家に「Is On(block1, block2) true? この経験から、エージェントは計画を学ぶ:二段階計画に使用できる神経述語解釈、シンボリックプランニング演算子、神経サンプルを学習する。調査中、エージェントは学習する: 現在のモデルを使用して、情報的な専門家クエリを生成するためのアクションを選択する。我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。私たちはこのアプローチを3つのロボット環境で評価し,6つのベースラインを一貫して上回りながら,2つの重要な指標(環境インタラクションの数,エキスパートへのクエリ数)でサンプル効率を示す。コード: https://tinyurl.com/active-predicates

関連論文リスト

Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。エンドツーエンドのトレーニングから生じる推論のタイプを分析します。本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文参考訳（メタデータ） (2025-03-11T11:16:47Z)
ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。 ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。凍結重量のみに依存するため、勾配更新は不要である。
論文参考訳（メタデータ） (2024-10-11T20:58:51Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文参考訳（メタデータ） (2022-08-17T21:58:19Z)
Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文参考訳（メタデータ） (2022-06-21T19:01:19Z)
Inventing Relational State and Action Abstractions for Effective and Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文参考訳（メタデータ） (2022-03-17T22:13:09Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文参考訳（メタデータ） (2020-04-07T01:06:36Z)
Deep compositional robotic planners that follow natural language commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文参考訳（メタデータ） (2020-02-12T19:56:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。