論文の概要: Adaptive Planning with Generative Models under Uncertainty
- arxiv url: http://arxiv.org/abs/2408.01510v1
- Date: Fri, 2 Aug 2024 18:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:49:47.534924
- Title: Adaptive Planning with Generative Models under Uncertainty
- Title(参考訳): 不確実性下における生成モデルによる適応計画
- Authors: Pascal Jutras-Dubé, Ruqi Zhang, Aniket Bera,
- Abstract要約: 生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 20.922248169620783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning with generative models has emerged as an effective decision-making paradigm across a wide range of domains, including reinforcement learning and autonomous navigation. While continuous replanning at each timestep might seem intuitive because it allows decisions to be made based on the most recent environmental observations, it results in substantial computational challenges, primarily due to the complexity of the generative model's underlying deep learning architecture. Our work addresses this challenge by introducing a simple adaptive planning policy that leverages the generative model's ability to predict long-horizon state trajectories, enabling the execution of multiple actions consecutively without the need for immediate replanning. We propose to use the predictive uncertainty derived from a Deep Ensemble of inverse dynamics models to dynamically adjust the intervals between planning sessions. In our experiments conducted on locomotion tasks within the OpenAI Gym framework, we demonstrate that our adaptive planning policy allows for a reduction in replanning frequency to only about 10% of the steps without compromising the performance. Our results underscore the potential of generative modeling as an efficient and effective tool for decision-making.
- Abstract(参考訳): 生成モデルによる計画は、強化学習や自律ナビゲーションなど、幅広い領域にわたる効果的な意思決定パラダイムとして現れている。
各時点における連続的な再計画は、最新の環境観測に基づいて決定を下すことができるため直感的に思えるかもしれないが、主に生成モデルの基盤となるディープラーニングアーキテクチャの複雑さのために、かなりの計算上の困難が生じる。
本研究は, 生成モデルの長期的状態軌跡予測能力を活用し, 即時的な計画変更を必要とせずに連続的に複数行動の実行を可能にする, 適応型計画手法を導入することで, この課題に対処する。
本稿では,逆動力学モデルのディープアンサンブルから導かれる予測不確実性を利用して,計画セッション間の間隔を動的に調整することを提案する。
我々は,OpenAI Gymフレームワーク内での移動タスクの実施実験において,適応計画政策により,性能を損なうことなく,頻度を約10%に短縮できることを実証した。
本結果は,意思決定の効率的かつ効果的なツールとしての生成モデルの可能性を明らかにするものである。
関連論文リスト
- Dynamic Obstacle Avoidance through Uncertainty-Based Adaptive Planning with Diffusion [40.76697924496143]
本稿では,行動予測の不確実性に基づいた適応的生成計画手法を提案する。
本手法は, 衝突回避性能を維持しつつ, 頻繁で計算コストが高く, 冗長な再計画の必要性を最小限に抑える。
論文 参考訳(メタデータ) (2024-09-25T14:03:58Z) - Deep hybrid models: infer and plan in the real world [0.0]
複雑な制御タスクに対する能動推論に基づく効果的な解を提案する。
提案したアーキテクチャは、ハイブリッド(離散的かつ連続的な)処理を利用して、自己と環境の階層的かつ動的表現を構築する。
我々は、このディープハイブリッドモデルを、移動ツールを選択した後、動く物体に到達するという、非自明なタスクで評価する。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Interactive Joint Planning for Autonomous Vehicles [19.479300967537675]
対話的な運転シナリオでは、あるエージェントの行動が隣人の行動に大きな影響を及ぼす。
本稿では,MPCを学習予測モデルでブリッジする対話型共同計画(Interactive Joint Planning, IJP)を提案する。
IJPは、共同最適化やサンプリングベースの計画を実行することなく、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-27T17:48:25Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。