Fugu-MT 論文翻訳(概要): EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

論文の概要: EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

arxiv url: http://arxiv.org/abs/2403.00564v2
Date: Thu, 12 Sep 2024 08:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 22:02:48.160657
Title: EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data
Title（参考訳）: EfficientZero V2: 限定データによる離散化と連続制御
Authors: Shengjie Wang, Shaohuai Liu, Weirui Ye, Jiacheng You, Yang Gao,
Abstract要約: 本稿では,サンプル効率のよい強化学習(RL)アルゴリズム用に設計されたフレームワークであるEfficientZero V2を紹介する。一連の改善により、EfficientZero V2は、様々なタスクにおいて、現在の最先端(SOTA)を上回っている。効率的なZero V2は一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、66のタスクのうち50で優れた結果を得た。
参考スコア（独自算出の注目度）: 22.621203162457018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control.
Abstract（参考訳）: 実世界のタスクに強化学習(RL)を適用する上で、サンプル効率は依然として重要な課題である。最近のアルゴリズムはサンプル効率の改善に大きく貢献しているが、様々な領域で一貫して優れたパフォーマンスを達成しているものはない。本稿では,サンプル効率のよいRLアルゴリズムのための汎用フレームワークであるEfficientZero V2を紹介する。我々はEfficientZeroの性能を複数の領域に拡張し、連続的および離散的な動作と視覚的および低次元的な入力の両方を包含した。私たちが提案する一連の改善により、EfficientZero V2は、制限されたデータ設定下での多様なタスクにおいて、現在の最先端(SOTA)よりも大幅にパフォーマンスが向上します。効率的なZero V2は、一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、Atari 100k、Proprio Control、Vision Controlといった様々なベンチマークで評価されたタスクのうち、66のタスクのうち50の優れた結果を達成する。

関連論文リスト

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。 OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文参考訳（メタデータ） (2025-03-11T10:50:14Z)
FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。近年の手法では、レンジビュー表現を利用して処理効率を向上している。範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文参考訳（メタデータ） (2025-02-13T12:39:26Z)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。 DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。 textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T14:57:08Z)
Haste Makes Waste: A Simple Approach for Scaling Graph Neural Networks [37.41604955004456]
グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。 GNNを大規模グラフのアプリケーションに拡張するための様々なサンプリング手法が提案されている。
論文参考訳（メタデータ） (2024-10-07T18:29:02Z)
UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。 Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2024-06-15T15:24:15Z)
YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (2024-05-23T11:44:29Z)
Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。変調機構が特に効率的なネットワークに適していることを実証する。私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文参考訳（メタデータ） (2024-03-29T03:48:35Z)
Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。 DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-01-11T14:53:24Z)
MIND: Multi-Task Incremental Network Distillation [45.74830585715129]
本研究では,リプレイフリーソリューションの性能向上を目的としたパラメータ分離手法 MIND を提案する。以上の結果から,MINDの優れた性能は,クラス増分学習やドメイン増分学習によってもたらされる課題に対処する可能性を示している。
論文参考訳（メタデータ） (2023-12-05T17:46:52Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-07-08T11:42:05Z)
Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文参考訳（メタデータ） (2021-10-30T09:13:39Z)
Measuring Progress in Deep Reinforcement Learning Sample Efficiency [0.0]
現在のベンチマークでは、安価で簡単に大量のサンプルを生成できる。実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。各種アルゴリズムが与えられた性能レベルに達するために必要なサンプル数を比較することで,Atariゲームにおけるサンプル効率と連続制御タスクの進捗状況について検討する。
論文参考訳（メタデータ） (2021-02-09T15:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。