論文の概要: Online Planning in POMDPs with Self-Improving Simulators
- arxiv url: http://arxiv.org/abs/2201.11404v1
- Date: Thu, 27 Jan 2022 09:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 22:11:06.668073
- Title: Online Planning in POMDPs with Self-Improving Simulators
- Title(参考訳): 自己改善シミュレータを用いたPMDPのオンライン計画
- Authors: Jinke He, Miguel Suau, Hendrik Baier, Michael Kaisers, Frans A.
Oliehoek
- Abstract要約: 私たちはオンラインで、時間とともに改善する近似的だがはるかに高速なシミュレータを学びます。
近似シミュレータが学習中に確実に効率的に計画を行うため,シミュレーション毎にどのシミュレータを使うかを適応的に決定する手法を開発した。
2つの大きなドメインの実験的結果は、POMCPと統合すると、我々のアプローチは時間とともに効率を向上して計画できることを示している。
- 参考スコア(独自算出の注目度): 17.722070992253638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we plan efficiently in a large and complex environment when the time
budget is limited? Given the original simulator of the environment, which may
be computationally very demanding, we propose to learn online an approximate
but much faster simulator that improves over time. To plan reliably and
efficiently while the approximate simulator is learning, we develop a method
that adaptively decides which simulator to use for every simulation, based on a
statistic that measures the accuracy of the approximate simulator. This allows
us to use the approximate simulator to replace the original simulator for
faster simulations when it is accurate enough under the current context, thus
trading off simulation speed and accuracy. Experimental results in two large
domains show that when integrated with POMCP, our approach allows to plan with
improving efficiency over time.
- Abstract(参考訳): 時間予算が制限された大規模で複雑な環境でどのように効率的に計画できるのか?
計算的に非常に要求される環境シミュレータの原型を考えると、時間とともに改善する近似的だがより高速なシミュレータをオンラインで学習することを提案する。
近似シミュレータが学習中に確実にかつ効率的に計画を行うため,近似シミュレータの精度を計測する統計量に基づいて,各シミュレーションに使用するシミュレータを適応的に決定する手法を開発した。
これにより、近似シミュレータを用いて、現在の状況下での精度が十分であれば、元のシミュレータを高速なシミュレーションに置き換えることができる。
2つの大きなドメインの実験的結果は、POMCPと統合すると、我々のアプローチは時間とともに効率を向上して計画できることを示している。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - DiSECt: A Differentiable Simulator for Parameter Inference and Control
in Robotic Cutting [71.50844437057555]
軟質材料を切断するための最初の微分可能シミュレータであるDiSECtについて述べる。
シミュレータは、符号付き距離場に基づく連続接触モデルにより有限要素法を増強する。
このシミュレータは, 最先端の商用解法を用いて, 結果の力やフィールドに適合するようにキャリブレーションできることを示す。
論文 参考訳(メタデータ) (2022-03-19T07:27:19Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - SimNet: Computer Architecture Simulation using Machine Learning [3.7019798164954336]
この研究では、機械学習(ML)を使用して離散イベントシミュレーションを加速する共同作業について説明します。
提案した命令遅延予測器に基づいて,GPU加速並列シミュレータを実装した。
そのシミュレーション精度とスループットを、最先端シミュレータに対して検証し、評価する。
論文 参考訳(メタデータ) (2021-05-12T17:31:52Z) - Simulation-efficient marginal posterior estimation with swyft: stop
wasting your precious time [5.533353383316288]
本研究では,ネスト型ニューラル・サイエンス・ツー・エビデンス比推定とシミュレーションの再利用のためのアルゴリズムを提案する。
これらのアルゴリズムが組み合わさって、縁部および関節後部の自動的および極端にシミュレーターによる効率的な推定を可能にする。
論文 参考訳(メタデータ) (2020-11-27T19:00:07Z) - Influence-Augmented Online Planning for Complex Environments [13.7920323975611]
本研究では,環境全体の因子化シミュレータを局所的なシミュレータに変換するための原理的手法であるインフルエンス拡張オンラインプランニングを提案する。
本研究の主実験結果から,POMCPを用いたより精度は低いが,より高速なローカルシミュレータの計画がリアルタイム計画性能の向上に繋がることが示された。
論文 参考訳(メタデータ) (2020-10-21T14:39:26Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Building high accuracy emulators for scientific simulations with deep
neural architecture search [0.0]
機械学習で高速エミュレータを構築することでシミュレーションを加速するための有望なルートは、大規模なトレーニングデータセットを必要とする。
ここでは,学習データに制限がある場合でも,正確なエミュレータを構築するためのニューラルネットワーク探索に基づく手法を提案する。
この手法は、天体物理学、気候科学、生物地球化学、高エネルギー密度物理学、核融合エネルギー、地震学を含む10の科学ケースにおいて、シミュレーションを最大20億回加速させることに成功した。
論文 参考訳(メタデータ) (2020-01-17T22:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。