論文の概要: EfficientZero V2: Mastering Discrete and Continuous Control with Limited
Data
- arxiv url: http://arxiv.org/abs/2403.00564v1
- Date: Fri, 1 Mar 2024 14:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:04:39.373110
- Title: EfficientZero V2: Mastering Discrete and Continuous Control with Limited
Data
- Title(参考訳): EfficientZero V2: 限定データによる離散化と連続制御
- Authors: Shengjie Wang, Shaohuai Liu, Weirui Ye, Jiacheng You and Yang Gao
- Abstract要約: 本稿では,サンプル効率のよい強化学習(RL)アルゴリズム用に設計されたフレームワークであるEfficientZero V2を紹介する。
一連の改善により、EfficientZero V2は、様々なタスクにおいて、現在の最先端(SOTA)を上回っている。
効率的なZero V2は一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、66のタスクのうち50で優れた結果を得た。
- 参考スコア(独自算出の注目度): 24.269066290021858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency remains a crucial challenge in applying Reinforcement
Learning (RL) to real-world tasks. While recent algorithms have made
significant strides in improving sample efficiency, none have achieved
consistently superior performance across diverse domains. In this paper, we
introduce EfficientZero V2, a general framework designed for sample-efficient
RL algorithms. We have expanded the performance of EfficientZero to multiple
domains, encompassing both continuous and discrete actions, as well as visual
and low-dimensional inputs. With a series of improvements we propose,
EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a
significant margin in diverse tasks under the limited data setting.
EfficientZero V2 exhibits a notable advancement over the prevailing general
algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks
across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision
Control.
- Abstract(参考訳): 実世界のタスクに強化学習(RL)を適用する上で、サンプル効率は依然として重要な課題である。
最近のアルゴリズムはサンプル効率の改善に大きく貢献しているが、様々な領域で一貫して優れたパフォーマンスを達成しているものはない。
本稿では,サンプル効率のよいRLアルゴリズムのための汎用フレームワークであるEfficientZero V2を紹介する。
我々はEfficientZeroの性能を複数の領域に拡張し、連続的かつ離散的な動作と視覚的および低次元的な入力を包含した。
私たちが提案する一連の改善により、EfficientZero V2は、制限されたデータ設定下での多様なタスクにおいて、現在の最先端(SOTA)よりも大幅にパフォーマンスが向上します。
efficientzero v2は、一般的な一般的なアルゴリズムであるdreamerv3よりも顕著な進歩を示し、atari 100k、proprio control、vision controlといった様々なベンチマークで評価された66のタスクのうち50で優れた結果を達成している。
関連論文リスト
- Haste Makes Waste: A Simple Approach for Scaling Graph Neural Networks [37.41604955004456]
グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。
GNNを大規模グラフのアプリケーションに拡張するための様々なサンプリング手法が提案されている。
論文 参考訳(メタデータ) (2024-10-07T18:29:02Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。
変調機構が特に効率的なネットワークに適していることを実証する。
私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文 参考訳(メタデータ) (2024-03-29T03:48:35Z) - Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。
DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。
画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-11T14:53:24Z) - MIND: Multi-Task Incremental Network Distillation [45.74830585715129]
本研究では,リプレイフリーソリューションの性能向上を目的としたパラメータ分離手法 MIND を提案する。
以上の結果から,MINDの優れた性能は,クラス増分学習やドメイン増分学習によってもたらされる課題に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-12-05T17:46:52Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Measuring Progress in Deep Reinforcement Learning Sample Efficiency [0.0]
現在のベンチマークでは、安価で簡単に大量のサンプルを生成できる。
実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。
各種アルゴリズムが与えられた性能レベルに達するために必要なサンプル数を比較することで,Atariゲームにおけるサンプル効率と連続制御タスクの進捗状況について検討する。
論文 参考訳(メタデータ) (2021-02-09T15:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。