論文の概要: EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data
- arxiv url: http://arxiv.org/abs/2403.00564v2
- Date: Thu, 12 Sep 2024 08:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 22:02:48.160657
- Title: EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data
- Title(参考訳): EfficientZero V2: 限定データによる離散化と連続制御
- Authors: Shengjie Wang, Shaohuai Liu, Weirui Ye, Jiacheng You, Yang Gao,
- Abstract要約: 本稿では,サンプル効率のよい強化学習(RL)アルゴリズム用に設計されたフレームワークであるEfficientZero V2を紹介する。
一連の改善により、EfficientZero V2は、様々なタスクにおいて、現在の最先端(SOTA)を上回っている。
効率的なZero V2は一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、66のタスクのうち50で優れた結果を得た。
- 参考スコア(独自算出の注目度): 22.621203162457018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control.
- Abstract(参考訳): 実世界のタスクに強化学習(RL)を適用する上で、サンプル効率は依然として重要な課題である。
最近のアルゴリズムはサンプル効率の改善に大きく貢献しているが、様々な領域で一貫して優れたパフォーマンスを達成しているものはない。
本稿では,サンプル効率のよいRLアルゴリズムのための汎用フレームワークであるEfficientZero V2を紹介する。
我々はEfficientZeroの性能を複数の領域に拡張し、連続的および離散的な動作と視覚的および低次元的な入力の両方を包含した。
私たちが提案する一連の改善により、EfficientZero V2は、制限されたデータ設定下での多様なタスクにおいて、現在の最先端(SOTA)よりも大幅にパフォーマンスが向上します。
効率的なZero V2は、一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、Atari 100k、Proprio Control、Vision Controlといった様々なベンチマークで評価されたタスクのうち、66のタスクのうち50の優れた結果を達成する。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Haste Makes Waste: A Simple Approach for Scaling Graph Neural Networks [37.41604955004456]
グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。
GNNを大規模グラフのアプリケーションに拡張するための様々なサンプリング手法が提案されている。
論文 参考訳(メタデータ) (2024-10-07T18:29:02Z) - UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。
長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。
Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-15T15:24:15Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。
DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。
画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-11T14:53:24Z) - MIND: Multi-Task Incremental Network Distillation [45.74830585715129]
本研究では,リプレイフリーソリューションの性能向上を目的としたパラメータ分離手法 MIND を提案する。
以上の結果から,MINDの優れた性能は,クラス増分学習やドメイン増分学習によってもたらされる課題に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-12-05T17:46:52Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。