論文の概要: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
- arxiv url: http://arxiv.org/abs/2006.07532v2
- Date: Sun, 25 Oct 2020 01:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:11:05.750021
- Title: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
- Title(参考訳): 境界型計画エージェントに対するオンラインベイズ目標推定
- Authors: Tan Zhi-Xuan, Jordyn L. Mann, Tom Silver, Joshua B. Tenenbaum, Vikash
K. Mansinghka
- Abstract要約: 本稿では,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。
我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界な有界プランナーとして機能する。
我々は,これらのモデルのオンライン再計画仮定を利用するシーケンシャルモンテカルロアルゴリズムであるシーケンシャル逆計画探索(SIPS)を開発した。
- 参考スコア(独自算出の注目度): 46.60073262357339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People routinely infer the goals of others by observing their actions over
time. Remarkably, we can do so even when those actions lead to failure,
enabling us to assist others when we detect that they might not achieve their
goals. How might we endow machines with similar capabilities? Here we present
an architecture capable of inferring an agent's goals online from both optimal
and non-optimal sequences of actions. Our architecture models agents as
boundedly-rational planners that interleave search with execution by
replanning, thereby accounting for sub-optimal behavior. These models are
specified as probabilistic programs, allowing us to represent and perform
efficient Bayesian inference over an agent's goals and internal planning
processes. To perform such inference, we develop Sequential Inverse Plan Search
(SIPS), a sequential Monte Carlo algorithm that exploits the online replanning
assumption of these models, limiting computation by incrementally extending
inferred plans as new actions are observed. We present experiments showing that
this modeling and inference architecture outperforms Bayesian inverse
reinforcement learning baselines, accurately inferring goals from both optimal
and non-optimal trajectories involving failure and back-tracking, while
generalizing across domains with compositional structure and sparse rewards.
- Abstract(参考訳): 人々は時間とともに自分の行動を観察することで、他人の目標を常に推測します。
注目すべきなのは、これらのアクションが失敗に繋がったとしても、それが目標を達成できないことを検知した時に、他の人を助けることができることです。
同じような能力を持つマシンをどうやって養うのか?
ここでは,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。
我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界レーショナルプランナーとして機能する。
これらのモデルは確率的プログラムとして指定され、エージェントの目標や内部計画プロセスに対して効率的なベイズ推定を表現および実行することができる。
このような推論を行うために,オンライン再計画仮定を利用した逐次モンテカルロアルゴリズムであるシーケンシャル逆計画探索 (sips) を開発した。
本稿では,このモデリングと推論アーキテクチャがベイズ逆強化学習ベースラインを上回り,障害やバックトラッキングを含む最適および非最適トラジェクタの目標を正確に推定し,構成構造とスパース報酬を伴う領域をまたいで一般化することを示す実験を行う。
関連論文リスト
- Goal-Conditioned Predictive Coding for Offline Reinforcement Learning [24.300131097275298]
本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。
本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
論文 参考訳(メタデータ) (2023-07-07T06:12:14Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Planning with Sequence Models through Iterative Energy Minimization [22.594413287842574]
本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。
マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
論文 参考訳(メタデータ) (2023-03-28T17:53:22Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。