論文の概要: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
- arxiv url: http://arxiv.org/abs/2006.07532v2
- Date: Sun, 25 Oct 2020 01:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:11:05.750021
- Title: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
- Title(参考訳): 境界型計画エージェントに対するオンラインベイズ目標推定
- Authors: Tan Zhi-Xuan, Jordyn L. Mann, Tom Silver, Joshua B. Tenenbaum, Vikash
K. Mansinghka
- Abstract要約: 本稿では,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。
我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界な有界プランナーとして機能する。
我々は,これらのモデルのオンライン再計画仮定を利用するシーケンシャルモンテカルロアルゴリズムであるシーケンシャル逆計画探索(SIPS)を開発した。
- 参考スコア(独自算出の注目度): 46.60073262357339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People routinely infer the goals of others by observing their actions over
time. Remarkably, we can do so even when those actions lead to failure,
enabling us to assist others when we detect that they might not achieve their
goals. How might we endow machines with similar capabilities? Here we present
an architecture capable of inferring an agent's goals online from both optimal
and non-optimal sequences of actions. Our architecture models agents as
boundedly-rational planners that interleave search with execution by
replanning, thereby accounting for sub-optimal behavior. These models are
specified as probabilistic programs, allowing us to represent and perform
efficient Bayesian inference over an agent's goals and internal planning
processes. To perform such inference, we develop Sequential Inverse Plan Search
(SIPS), a sequential Monte Carlo algorithm that exploits the online replanning
assumption of these models, limiting computation by incrementally extending
inferred plans as new actions are observed. We present experiments showing that
this modeling and inference architecture outperforms Bayesian inverse
reinforcement learning baselines, accurately inferring goals from both optimal
and non-optimal trajectories involving failure and back-tracking, while
generalizing across domains with compositional structure and sparse rewards.
- Abstract(参考訳): 人々は時間とともに自分の行動を観察することで、他人の目標を常に推測します。
注目すべきなのは、これらのアクションが失敗に繋がったとしても、それが目標を達成できないことを検知した時に、他の人を助けることができることです。
同じような能力を持つマシンをどうやって養うのか?
ここでは,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。
我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界レーショナルプランナーとして機能する。
これらのモデルは確率的プログラムとして指定され、エージェントの目標や内部計画プロセスに対して効率的なベイズ推定を表現および実行することができる。
このような推論を行うために,オンライン再計画仮定を利用した逐次モンテカルロアルゴリズムであるシーケンシャル逆計画探索 (sips) を開発した。
本稿では,このモデリングと推論アーキテクチャがベイズ逆強化学習ベースラインを上回り,障害やバックトラッキングを含む最適および非最適トラジェクタの目標を正確に推定し,構成構造とスパース報酬を伴う領域をまたいで一般化することを示す実験を行う。
関連論文リスト
- DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。
提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。
提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。