論文の概要: Influence-Augmented Online Planning for Complex Environments
- arxiv url: http://arxiv.org/abs/2010.11038v2
- Date: Wed, 9 Jun 2021 15:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:07:51.449395
- Title: Influence-Augmented Online Planning for Complex Environments
- Title(参考訳): 複雑環境におけるオンラインプランニングの影響
- Authors: Jinke He and Miguel Suau and Frans A. Oliehoek
- Abstract要約: 本研究では,環境全体の因子化シミュレータを局所的なシミュレータに変換するための原理的手法であるインフルエンス拡張オンラインプランニングを提案する。
本研究の主実験結果から,POMCPを用いたより精度は低いが,より高速なローカルシミュレータの計画がリアルタイム計画性能の向上に繋がることが示された。
- 参考スコア(独自算出の注目度): 13.7920323975611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we plan efficiently in real time to control an agent in a complex
environment that may involve many other agents? While existing sample-based
planners have enjoyed empirical success in large POMDPs, their performance
heavily relies on a fast simulator. However, real-world scenarios are complex
in nature and their simulators are often computationally demanding, which
severely limits the performance of online planners. In this work, we propose
influence-augmented online planning, a principled method to transform a
factored simulator of the entire environment into a local simulator that
samples only the state variables that are most relevant to the observation and
reward of the planning agent and captures the incoming influence from the rest
of the environment using machine learning methods. Our main experimental
results show that planning on this less accurate but much faster local
simulator with POMCP leads to higher real-time planning performance than
planning on the simulator that models the entire environment.
- Abstract(参考訳): 他の多くのエージェントを含む複雑な環境でエージェントを制御するために、どのように効率的にリアルタイムに計画するか?
既存のサンプルベースのプランナーは大規模なPOMDPで経験的な成功をおさめたが、その性能は高速シミュレータに大きく依存している。
しかし、現実世界のシナリオは本質的に複雑であり、シミュレーターはしばしば計算上要求されるため、オンラインプランナーのパフォーマンスが著しく制限される。
本研究では,環境全体の因子的シミュレータを局所的シミュレータに変換する原理的手法であるインフルエンス拡張オンラインプランニングを提案し,計画エージェントの観察と報酬に最も関係のある状態変数のみをサンプリングし,機械学習手法を用いて環境の他の部分からのインフルエンスをキャプチャする。
主な実験結果から,POMCPを用いたローカルシミュレータの計画は, 環境全体をモデル化したシミュレータの計画よりも, リアルタイムの計画性能が向上することが示唆された。
関連論文リスト
- Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。
最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。
本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Towards predicting Pedestrian Evacuation Time and Density from
Floorplans using a Vision Transformer [0.0]
本研究では,視覚変換器をベースとした深層学習手法を提案する。
具体的には、公開データセットの可用性が限られているため、従来のシミュレータを含むパラメトリックデータ生成パイプラインを実装している。
これにより、アーキテクチャのトレーニングに使用する大規模な合成データセットを構築することができます。
論文 参考訳(メタデータ) (2023-06-27T09:15:52Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Leveraging Scene Embeddings for Gradient-Based Motion Planning in Latent
Space [24.95320093765214]
AMP-LSは、従来の計画ベースラインを桁違いの速度で上回りながら、新しい複雑なシーンで計画できる。
実世界の動的シーンにおける閉ループ計画を実現するのに十分な速度が得られた。
論文 参考訳(メタデータ) (2023-03-06T18:49:39Z) - Online Planning in POMDPs with Self-Improving Simulators [17.722070992253638]
私たちはオンラインで、時間とともに改善する近似的だがはるかに高速なシミュレータを学びます。
近似シミュレータが学習中に確実に効率的に計画を行うため,シミュレーション毎にどのシミュレータを使うかを適応的に決定する手法を開発した。
2つの大きなドメインの実験的結果は、POMCPと統合すると、我々のアプローチは時間とともに効率を向上して計画できることを示している。
論文 参考訳(メタデータ) (2022-01-27T09:41:59Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。