論文の概要: Critic Sequential Monte Carlo
- arxiv url: http://arxiv.org/abs/2205.15460v1
- Date: Mon, 30 May 2022 23:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 06:10:30.292901
- Title: Critic Sequential Monte Carlo
- Title(参考訳): 批判的モンテカルロ
- Authors: Vasileios Lioutas, Jonathan Wilder Lavington, Justice Sefas, Matthew
Niedoba, Yunpeng Liu, Berend Zwartsenberg, Setareh Dabiri, Frank Wood, Adam
Scibior
- Abstract要約: CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
- 参考スコア(独自算出の注目度): 15.596665321375298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce CriticSMC, a new algorithm for planning as inference built from
a novel composition of sequential Monte Carlo with learned soft-Q function
heuristic factors. This algorithm is structured so as to allow using large
numbers of putative particles leading to efficient utilization of computational
resource and effective discovery of high reward trajectories even in
environments with difficult reward surfaces such as those arising from hard
constraints. Relative to prior art our approach is notably still compatible
with model-free reinforcement learning in the sense that the implicit policy we
produce can be used at test time in the absence of a world model. Our
experiments on self-driving car collision avoidance in simulation demonstrate
improvements against baselines in terms of infraction minimization relative to
computational effort while maintaining diversity and realism of found
trajectories.
- Abstract(参考訳): 本稿では,ソフトq関数のヒューリスティックな要素を学習した逐次モンテカルロの合成から構築した推論として計画する新しいアルゴリズムである criticsmc を紹介する。
このアルゴリズムは、計算資源の効率的な利用と、厳しい制約から生じるような困難な報酬面を持つ環境においても、高い報酬軌道の効率的な発見につながる大量の仮定粒子の使用を可能にするように構成されている。
先行技術とは対照的に、我々のアプローチは、世界モデルがない場合にテスト時に暗黙のポリシーを使用できるという意味で、モデルなしの強化学習と相容れない。
シミュレーションにおける自走車衝突回避実験は, 軌道の多様性と現実性を維持しつつ, 計算量に対する非破壊的最小化の観点から, ベースラインに対する改善を示す。
関連論文リスト
- Optimal Transportation by Orthogonal Coupling Dynamics [0.0]
本稿では,プロジェクション型勾配勾配法に基づくモンゲ・カントロビッチ問題に対処する新しい枠組みを提案する。
マイクロダイナミクスは条件付き期待の概念に基づいて構築され、そこでは意見力学との関係を探求する。
提案手法は,計算性能がよいランダムマップを復元できることを実証する。
論文 参考訳(メタデータ) (2024-10-10T15:53:48Z) - SPO: Sequential Monte Carlo Policy Optimisation [41.52684912140086]
SPO:Sequential Monte Carlo Policy optimizationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-12T10:32:47Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Stochastic Gradient Langevin Dynamics Algorithms with Adaptive Drifts [8.36840154574354]
そこで我々は, ドリフト関数を偏り, サドル点からの脱出を促進させ, バイアスを過去のサンプルの勾配に応じて適応的に調整する, 適応的勾配勾配連鎖モンテカルロ(SGMCMC)アルゴリズムを提案する。
本稿では,提案アルゴリズムが既存のSGMCMCアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-20T22:03:39Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。