論文の概要: Active Inference for Stochastic Control
- arxiv url: http://arxiv.org/abs/2108.12245v1
- Date: Fri, 27 Aug 2021 12:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:09:58.761844
- Title: Active Inference for Stochastic Control
- Title(参考訳): 確率制御のためのアクティブ推論
- Authors: Aswin Paul, Noor Sajid, Manoj Gopalkrishnan, and Adeel Razi
- Abstract要約: 能動推論は直感的な(確率的な)形式主義を考えると、問題を制御するための代替手法として登場した。
本研究は,制御設定のためのアクティブ推論の有用性を評価するために構築される。
本研究は, 強化学習と比較して, 決定論的・部分的可観測性の両方において, 能動推論の利点を示すものである。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Active inference has emerged as an alternative approach to control problems
given its intuitive (probabilistic) formalism. However, despite its theoretical
utility, computational implementations have largely been restricted to
low-dimensional, deterministic settings. This paper highlights that this is a
consequence of the inability to adequately model stochastic transition
dynamics, particularly when an extensive policy (i.e., action trajectory) space
must be evaluated during planning. Fortunately, recent advancements propose a
modified planning algorithm for finite temporal horizons. We build upon this
work to assess the utility of active inference for a stochastic control
setting. For this, we simulate the classic windy grid-world task with
additional complexities, namely: 1) environment stochasticity; 2) learning of
transition dynamics; and 3) partial observability. Our results demonstrate the
advantage of using active inference, compared to reinforcement learning, in
both deterministic and stochastic settings.
- Abstract(参考訳): 能動推論は、直観的(確率的)形式論を前提に、問題を制御するための別のアプローチとして現れた。
しかし、その理論的有用性にもかかわらず、計算の実装は低次元の決定論的設定に限定されている。
本稿では、特に計画中に広範な方針(すなわち行動軌道)空間を評価する必要がある場合に、確率的遷移ダイナミクスを適切にモデル化できないことによるものであることを強調する。
幸いなことに、最近の進歩は有限時間地平線に対する修正計画アルゴリズムを提案する。
本研究は,確率的制御設定における能動推論の有用性を評価するためのものである。
そこで我々は,1)環境確率性,2)遷移ダイナミクスの学習,3)部分可観測性という,従来の風力グリッドワールドタスクをシミュレートする。
本研究は,決定論的および確率的設定において,強化学習と比較して,能動的推論の利点を示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Deep hybrid models: infer and plan in the real world [0.0]
複雑な制御タスクに対する能動推論に基づく効果的な解を提案する。
提案したアーキテクチャは、ハイブリッド(離散的かつ連続的な)処理を利用して、自己と環境の階層的かつ動的表現を構築する。
我々は、このディープハイブリッドモデルを、移動ツールを選択した後、動く物体に到達するという、非自明なタスクで評価する。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Learning From Scenarios for Stochastic Repairable Scheduling [3.9948520633731026]
本研究では,スムーシングに基づく意思決定型学習手法がスケジューリング問題にどのように適応できるかを示す。
本研究では,意思決定に焦点をあてた学習が,このような状況において,どのような状況において技術状況を上回るかを検証するための実験的な評価を含む:シナリオベース最適化。
論文 参考訳(メタデータ) (2023-12-06T13:32:17Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。