Fugu-MT 論文翻訳(概要): Online Bayesian Goal Inference for Boundedly-Rational Planning Agents

論文の概要: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents

arxiv url: http://arxiv.org/abs/2006.07532v2
Date: Sun, 25 Oct 2020 01:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 21:11:05.750021
Title: Online Bayesian Goal Inference for Boundedly-Rational Planning Agents
Title（参考訳）: 境界型計画エージェントに対するオンラインベイズ目標推定
Authors: Tan Zhi-Xuan, Jordyn L. Mann, Tom Silver, Joshua B. Tenenbaum, Vikash K. Mansinghka
Abstract要約: 本稿では,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界な有界プランナーとして機能する。我々は,これらのモデルのオンライン再計画仮定を利用するシーケンシャルモンテカルロアルゴリズムであるシーケンシャル逆計画探索(SIPS)を開発した。
参考スコア（独自算出の注目度）: 46.60073262357339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People routinely infer the goals of others by observing their actions over time. Remarkably, we can do so even when those actions lead to failure, enabling us to assist others when we detect that they might not achieve their goals. How might we endow machines with similar capabilities? Here we present an architecture capable of inferring an agent's goals online from both optimal and non-optimal sequences of actions. Our architecture models agents as boundedly-rational planners that interleave search with execution by replanning, thereby accounting for sub-optimal behavior. These models are specified as probabilistic programs, allowing us to represent and perform efficient Bayesian inference over an agent's goals and internal planning processes. To perform such inference, we develop Sequential Inverse Plan Search (SIPS), a sequential Monte Carlo algorithm that exploits the online replanning assumption of these models, limiting computation by incrementally extending inferred plans as new actions are observed. We present experiments showing that this modeling and inference architecture outperforms Bayesian inverse reinforcement learning baselines, accurately inferring goals from both optimal and non-optimal trajectories involving failure and back-tracking, while generalizing across domains with compositional structure and sparse rewards.
Abstract（参考訳）: 人々は時間とともに自分の行動を観察することで、他人の目標を常に推測します。注目すべきなのは、これらのアクションが失敗に繋がったとしても、それが目標を達成できないことを検知した時に、他の人を助けることができることです。同じような能力を持つマシンをどうやって養うのか? ここでは,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界レーショナルプランナーとして機能する。これらのモデルは確率的プログラムとして指定され、エージェントの目標や内部計画プロセスに対して効率的なベイズ推定を表現および実行することができる。このような推論を行うために,オンライン再計画仮定を利用した逐次モンテカルロアルゴリズムであるシーケンシャル逆計画探索 (sips) を開発した。本稿では,このモデリングと推論アーキテクチャがベイズ逆強化学習ベースラインを上回り,障害やバックトラッキングを含む最適および非最適トラジェクタの目標を正確に推定し,構成構造とスパース報酬を伴う領域をまたいで一般化することを示す実験を行う。

関連論文リスト

Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文参考訳（メタデータ） (2025-07-31T14:25:54Z)
DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文参考訳（メタデータ） (2025-02-04T03:05:55Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文参考訳（メタデータ） (2024-10-02T11:42:49Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文参考訳（メタデータ） (2023-07-02T07:38:56Z)
Planning with Sequence Models through Iterative Energy Minimization [22.594413287842574]
本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
論文参考訳（メタデータ） (2023-03-28T17:53:22Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文参考訳（メタデータ） (2020-10-26T16:00:47Z)
Long-Horizon Visual Planning with Goal-Conditioned Hierarchical Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-23T17:58:56Z)
PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。本研究は,PlanGANが4～8倍の効率で,同等の性能を達成できることを示唆する。
論文参考訳（メタデータ） (2020-06-01T12:53:09Z)
Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文参考訳（メタデータ） (2020-04-23T18:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。