論文の概要: ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze
- arxiv url: http://arxiv.org/abs/2404.16364v1
- Date: Thu, 25 Apr 2024 07:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:38:43.566414
- Title: ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze
- Title(参考訳): ReZero: ジャストインタイムとスピーディーリアナライズによるMCTSベースのアルゴリズムの強化
- Authors: Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Jing Yang,
- Abstract要約: 本稿では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。
具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減する手法を提案する。
アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 3.331223940028969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MCTS-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost MCTS-based algorithms. Specifically, we propose a new scheme that simplifies data collecting and reanalyzing, which significantly reduces the search cost while guarantees the performance as well. Furthermore, to accelerate each search process, we conceive a method to reuse the subsequent information in the trajectory. The corresponding analysis conducted on the bandit model also provides auxiliary theoretical substantiation for our design. Experiments conducted on Atari environments and board games demonstrates that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero.
- Abstract(参考訳): MuZeroなどのMCTSベースのアルゴリズムは、様々な意思決定領域で広く成功している。
これらのアルゴリズムは、ウォールタイムの時間消費を犠牲にして、サンプル効率を高めるために再分析プロセスを採用している。
そこで本研究では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。
具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減し,性能も保証する新しい手法を提案する。
さらに,各探索過程を高速化するために,軌跡内のその後の情報を再利用する手法を提案する。
また, バンディットモデルを用いた解析により, 設計の補助的理論的サブストラテレーションも実現した。
アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。
関連論文リスト
- Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Boosting Tail Neural Network for Realtime Custom Keyword Spotting [2.5137859989323537]
本稿では,リアルタイムカスタムキーワードスポッティング(RCKS)の性能向上を目的としたBoosting Tail Neural Network(BTNN)を提案する。
脳科学にインスパイアされた多くの機械学習アルゴリズムは、弱い分類器を使って困難な問題を解決するために開発された。
論文 参考訳(メタデータ) (2022-05-24T13:26:39Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Circa: Stochastic ReLUs for Private Deep Learning [6.538025863698682]
我々はReLU計算を再考し、ニューラルネットワークに適したPIの最適化を提案する。
具体的には,ReLUを近似手形テストとして再構成し,手形テストのための新しい切り抜き手法を導入する。
最大4.7倍のストレージと3倍のランタイムをベースライン実装で実現した。
論文 参考訳(メタデータ) (2021-06-15T22:52:45Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Provable Training of a ReLU Gate with an Iterative Non-Gradient
Algorithm [0.7614628596146599]
我々は,未調査体制下での1つのReLUゲートのトレーニングについて,証明可能な保証を示す。
我々は,真のラベルに対する(オンライン)データポゾン攻撃の下で,真のラベル生成パラメータを近似的に復元することを示す。
我々の保証は最悪の場合ほぼ最適であることが示され、真の重量回復の精度は攻撃の確率と大きさの増大とともに優雅に低下する。
論文 参考訳(メタデータ) (2020-05-08T17:59:23Z) - Optimizing Quantum Annealing Schedules with Monte Carlo Tree Search
enhanced with neural networks [17.819359687456366]
断熱アルゴリズムは、アニーリングパスの終端で問題符号化されたハミルトニアンの基礎状態を作成する。
我々はモンテカルロ木探索 (MCTS) アルゴリズムを提案し,その拡張バージョンをニューラルネットワークで強化し,QuantumZero (QZero) と名付けた。
MCTSとQZeroのアルゴリズムは、効果的なアニールスケジュールの発見において、非常によく機能する。
論文 参考訳(メタデータ) (2020-04-06T17:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。