論文の概要: Goal Recognition as Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.06356v1
- Date: Sun, 13 Feb 2022 16:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 06:56:12.714766
- Title: Goal Recognition as Reinforcement Learning
- Title(参考訳): 強化学習としてのゴール認識
- Authors: Leonardo Rosa Amado and Reuth Mirsky and Felipe Meneguzzi
- Abstract要約: モデルレス強化学習と目標認識を組み合わせたフレームワークを開発する。
このフレームワークは、2つの主要なステージで構成されている。
その結果、標準評価領域における目標認識器に対する最先端の性能とノイズの多い環境における優れた性能が達成される。
- 参考スコア(独自算出の注目度): 20.651718821998106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most approaches for goal recognition rely on specifications of the possible
dynamics of the actor in the environment when pursuing a goal. These
specifications suffer from two key issues. First, encoding these dynamics
requires careful design by a domain expert, which is often not robust to noise
at recognition time. Second, existing approaches often need costly real-time
computations to reason about the likelihood of each potential goal. In this
paper, we develop a framework that combines model-free reinforcement learning
and goal recognition to alleviate the need for careful, manual domain design,
and the need for costly online executions. This framework consists of two main
stages: Offline learning of policies or utility functions for each potential
goal, and online inference. We provide a first instance of this framework using
tabular Q-learning for the learning stage, as well as three measures that can
be used to perform the inference stage. The resulting instantiation achieves
state-of-the-art performance against goal recognizers on standard evaluation
domains and superior performance in noisy environments.
- Abstract(参考訳): ゴール認識のほとんどのアプローチは、目標を追求する際の環境におけるアクターのダイナミクスの仕様に依存している。
これらの仕様には2つの大きな問題がある。
まず、これらのダイナミクスを符号化するには、ドメインの専門家による慎重に設計する必要がある。
第二に、既存のアプローチは、それぞれの潜在的な目標の可能性を推論するために、しばしばコストのかかるリアルタイム計算を必要とします。
本稿では,モデルレス強化学習と目標認識を組み合わせたフレームワークを開発し,注意深い手動ドメイン設計の必要性と,コストのかかるオンライン実行の必要性を緩和する。
このフレームワークは、2つの主要なステージから成り立っている: 目標毎のポリシーやユーティリティ機能のオフライン学習、オンライン推論。
本稿では,このフレームワークの第一例として,表型q-learningを学習ステージに用い,推論ステージの実行に使用できる3つの尺度を提案する。
その結果、標準評価領域におけるゴール認識者に対する最先端性能と雑音環境における優れた性能が得られる。
関連論文リスト
- Real-time goal recognition using approximations in Euclidean space [10.003540430416091]
本研究では,個別領域における各目標に対するプランナーへの1回の呼び出し,あるいは連続領域における計算負担を軽減する簡易な動作モデルのいずれかに依存する,効率的なゴール認識手法を開発する。
結果として得られたアプローチは、現在の最先端技術よりもはるかに高速な認識順序のオンラインコンポーネントを実行し、サブ秒単位の認識を必要とするロボティクスアプリケーションに効果的に使用できる最初のオンライン手法となった。
論文 参考訳(メタデータ) (2023-07-15T19:27:38Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning [5.406386303264086]
いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
論文 参考訳(メタデータ) (2020-02-15T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。