論文の概要: Sample-efficient Cross-Entropy Method for Real-time Planning
- arxiv url: http://arxiv.org/abs/2008.06389v1
- Date: Fri, 14 Aug 2020 14:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:12:10.703495
- Title: Sample-efficient Cross-Entropy Method for Real-time Planning
- Title(参考訳): 実時間計画のためのサンプル効率クロスエントロピー法
- Authors: Cristina Pinneri, Shambhuraj Sawant, Sebastian Blaes, Jan Achterhold,
Joerg Stueckler, Michal Rolinek and Georg Martius
- Abstract要約: 高速計画のためのクロスエントロピー法 (CEM) アルゴリズムの改良版を提案し, 時間的相関行動やメモリなどの新たな追加, 2.7~22倍のサンプルの削減, 高次元制御問題における1.2~10倍の性能向上を実現した。
- 参考スコア(独自算出の注目度): 25.056882970766768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory optimizers for model-based reinforcement learning, such as the
Cross-Entropy Method (CEM), can yield compelling results even in
high-dimensional control tasks and sparse-reward environments. However, their
sampling inefficiency prevents them from being used for real-time planning and
control. We propose an improved version of the CEM algorithm for fast planning,
with novel additions including temporally-correlated actions and memory,
requiring 2.7-22x less samples and yielding a performance increase of 1.2-10x
in high-dimensional control problems.
- Abstract(参考訳): クロスエントロピー法(cem)のようなモデルに基づく強化学習のための軌道最適化器は、高次元制御タスクやスパースワード環境においても説得力のある結果が得られる。
しかし、サンプリングの非効率さは、リアルタイムの計画と制御に使用できない。
高速計画のためのcemアルゴリズムの改良版を提案し,時間対応動作やメモリの追加,2.7~22倍のサンプル削減,高次元制御問題における1.2~10倍の性能向上などを行った。
関連論文リスト
- Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Approximating Constraint Manifolds Using Generative Models for
Sampling-Based Constrained Motion Planning [8.924344714683814]
本稿では,制約付き動作計画問題に対する学習に基づくサンプリング戦略を提案する。
本研究では,条件変数自動エンコーダ(CVAE)と条件生成適応ネット(CGAN)を用いて制約条件を満たすサンプル構成を生成する。
これら2つの生成モデルの有効性を,サンプリング精度とサンプリング分布のカバレッジの観点から評価した。
論文 参考訳(メタデータ) (2022-04-14T07:08:30Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Enhancing Transformer Efficiency for Multivariate Time Series
Classification [12.128991867050487]
本稿では,モデル効率と精度,複雑さの関係を考察する手法を提案する。
ベンチマークMSSデータセットの総合実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-28T03:25:19Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。