Fugu-MT 論文翻訳(概要): Sample-efficient Cross-Entropy Method for Real-time Planning

論文の概要: Sample-efficient Cross-Entropy Method for Real-time Planning

arxiv url: http://arxiv.org/abs/2008.06389v1
Date: Fri, 14 Aug 2020 14:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 17:12:10.703495
Title: Sample-efficient Cross-Entropy Method for Real-time Planning
Title（参考訳）: 実時間計画のためのサンプル効率クロスエントロピー法
Authors: Cristina Pinneri, Shambhuraj Sawant, Sebastian Blaes, Jan Achterhold, Joerg Stueckler, Michal Rolinek and Georg Martius
Abstract要約: 高速計画のためのクロスエントロピー法 (CEM) アルゴリズムの改良版を提案し, 時間的相関行動やメモリなどの新たな追加, 2.7～22倍のサンプルの削減, 高次元制御問題における1.2～10倍の性能向上を実現した。
参考スコア（独自算出の注目度）: 25.056882970766768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trajectory optimizers for model-based reinforcement learning, such as the Cross-Entropy Method (CEM), can yield compelling results even in high-dimensional control tasks and sparse-reward environments. However, their sampling inefficiency prevents them from being used for real-time planning and control. We propose an improved version of the CEM algorithm for fast planning, with novel additions including temporally-correlated actions and memory, requiring 2.7-22x less samples and yielding a performance increase of 1.2-10x in high-dimensional control problems.
Abstract（参考訳）: クロスエントロピー法(cem)のようなモデルに基づく強化学習のための軌道最適化器は、高次元制御タスクやスパースワード環境においても説得力のある結果が得られる。しかし、サンプリングの非効率さは、リアルタイムの計画と制御に使用できない。高速計画のためのcemアルゴリズムの改良版を提案し,時間対応動作やメモリの追加,2.7～22倍のサンプル削減,高次元制御問題における1.2～10倍の性能向上などを行った。

関連論文リスト

Consistency Trajectory Planning: High-Quality and Efficient Trajectory Optimization for Offline Model-Based Reinforcement Learning [16.126373530332245]
本稿では,新しいオフラインモデルに基づく強化学習手法であるConsistency Trajectory Planning (CTP)を紹介する。 CTPは、政策品質を著しく低下させることなく、高速で単一ステップの軌道生成をサポートする。
論文参考訳（メタデータ） (2025-07-13T08:31:11Z)
Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文参考訳（メタデータ） (2025-05-23T08:36:56Z)
PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [0.15146068448101743]
PMPOはトークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として利用するプロンプトを洗練するフレームワークである。従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。実験の結果、PMPOはモデルのサイズやタスクにまたがる先行メソッドよりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-22T06:59:10Z)
Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。 URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文参考訳（メタデータ） (2025-03-20T16:44:43Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-23T06:57:04Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文参考訳（メタデータ） (2023-11-23T09:57:35Z)
An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文参考訳（メタデータ） (2022-08-11T22:27:22Z)
Approximating Constraint Manifolds Using Generative Models for Sampling-Based Constrained Motion Planning [8.924344714683814]
本稿では,制約付き動作計画問題に対する学習に基づくサンプリング戦略を提案する。本研究では,条件変数自動エンコーダ(CVAE)と条件生成適応ネット(CGAN)を用いて制約条件を満たすサンプル構成を生成する。これら2つの生成モデルの有効性を,サンプリング精度とサンプリング分布のカバレッジの観点から評価した。
論文参考訳（メタデータ） (2022-04-14T07:08:30Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。 TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文参考訳（メタデータ） (2022-03-09T18:58:28Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。