論文の概要: TransZero: Parallel Tree Expansion in MuZero using Transformer Networks
- arxiv url: http://arxiv.org/abs/2509.11233v1
- Date: Sun, 14 Sep 2025 12:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.987303
- Title: TransZero: Parallel Tree Expansion in MuZero using Transformer Networks
- Title(参考訳): TransZero: Transformer Networks を用いた MuZero の並列木拡大
- Authors: Emil Malmsten, Wendelin Böhmer,
- Abstract要約: モンテカルロ木探索におけるシーケンシャルボトルネックを除去するモデルベース強化学習アルゴリズムであるTransZeroを提案する。
我々は,TransZeroがMuZeroと比較して壁面時間で最大11倍のスピードアップを達成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TransZero, a model-based reinforcement learning algorithm that removes the sequential bottleneck in Monte Carlo Tree Search (MCTS). Unlike MuZero, which constructs its search tree step by step using a recurrent dynamics model, TransZero employs a transformer-based network to generate multiple latent future states simultaneously. Combined with the Mean-Variance Constrained (MVC) evaluator that eliminates dependence on inherently sequential visitation counts, our approach enables the parallel expansion of entire subtrees during planning. Experiments in MiniGrid and LunarLander show that TransZero achieves up to an eleven-fold speedup in wall-clock time compared to MuZero while maintaining sample efficiency. These results demonstrate that parallel tree construction can substantially accelerate model-based reinforcement learning, bringing real-time decision-making in complex environments closer to practice. The code is publicly available on GitHub.
- Abstract(参考訳): 本稿では,モンテカルロ木探索(MCTS)における逐次ボトルネックを取り除くモデルベース強化学習アルゴリズムであるTransZeroを提案する。
TransZeroは、リカレントダイナミクスモデルを用いて探索ツリーをステップごとに構築するMuZeroとは異なり、トランスジェロはトランスフォーマーベースのネットワークを使用して、複数の潜在将来の状態を同時に生成する。
本手法は,自然に連続する訪問数に依存しない平均変動制約 (MVC) 評価器と組み合わせることで,計画中のサブツリー全体の並列展開を可能にする。
MiniGridとLunarLanderの実験では、TransZeroはサンプル効率を維持しながら、MuZeroと比較して壁面時間で最大11倍のスピードアップを達成した。
これらの結果は、並列木構築がモデルに基づく強化学習を大幅に加速し、複雑な環境におけるリアルタイムな意思決定を実践に近づけることを示した。
コードはGitHubで公開されている。
関連論文リスト
- Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze [5.671696366787522]
本稿では,モンテカルロ木探索 (MCTS) アルゴリズムにおける木探索の高速化を目的としたReZeroという手法を提案する。
具体的には、特定の子ノードの値推定を用いて、対応するサブツリー探索時間を節約する逆ビュー再利用手法を用いて、トレーニングサンプルを再解析する。
Atari環境、DMControlスイート、ボードゲームで行った実験では、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-25T07:02:07Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - Improving Token-Based World Models with Parallel Observation Prediction [55.41770427527391]
トークンベースの世界モデル(TBWM)は、最近サンプル効率のよい方法として提案されている。
想像の中で、次の観測のシーケンシャルなトークン・バイ・トークンの生成は深刻なボトルネックをもたらす。
我々は、このボトルネックを解決するために、新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
論文 参考訳(メタデータ) (2024-02-08T12:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。