論文の概要: TransZero: Parallel Tree Expansion in MuZero using Transformer Networks
- arxiv url: http://arxiv.org/abs/2509.11233v1
- Date: Sun, 14 Sep 2025 12:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.987303
- Title: TransZero: Parallel Tree Expansion in MuZero using Transformer Networks
- Title(参考訳): TransZero: Transformer Networks を用いた MuZero の並列木拡大
- Authors: Emil Malmsten, Wendelin Böhmer,
- Abstract要約: モンテカルロ木探索におけるシーケンシャルボトルネックを除去するモデルベース強化学習アルゴリズムであるTransZeroを提案する。
我々は,TransZeroがMuZeroと比較して壁面時間で最大11倍のスピードアップを達成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TransZero, a model-based reinforcement learning algorithm that removes the sequential bottleneck in Monte Carlo Tree Search (MCTS). Unlike MuZero, which constructs its search tree step by step using a recurrent dynamics model, TransZero employs a transformer-based network to generate multiple latent future states simultaneously. Combined with the Mean-Variance Constrained (MVC) evaluator that eliminates dependence on inherently sequential visitation counts, our approach enables the parallel expansion of entire subtrees during planning. Experiments in MiniGrid and LunarLander show that TransZero achieves up to an eleven-fold speedup in wall-clock time compared to MuZero while maintaining sample efficiency. These results demonstrate that parallel tree construction can substantially accelerate model-based reinforcement learning, bringing real-time decision-making in complex environments closer to practice. The code is publicly available on GitHub.
- Abstract(参考訳): 本稿では,モンテカルロ木探索(MCTS)における逐次ボトルネックを取り除くモデルベース強化学習アルゴリズムであるTransZeroを提案する。
TransZeroは、リカレントダイナミクスモデルを用いて探索ツリーをステップごとに構築するMuZeroとは異なり、トランスジェロはトランスフォーマーベースのネットワークを使用して、複数の潜在将来の状態を同時に生成する。
本手法は,自然に連続する訪問数に依存しない平均変動制約 (MVC) 評価器と組み合わせることで,計画中のサブツリー全体の並列展開を可能にする。
MiniGridとLunarLanderの実験では、TransZeroはサンプル効率を維持しながら、MuZeroと比較して壁面時間で最大11倍のスピードアップを達成した。
これらの結果は、並列木構築がモデルに基づく強化学習を大幅に加速し、複雑な環境におけるリアルタイムな意思決定を実践に近づけることを示した。
コードはGitHubで公開されている。
関連論文リスト
- DAG Learning from Zero-Inflated Count Data Using Continuous Optimization [2.0443308797642965]
ZICOは、シミュレートされたデータ上でより高速なランタイムで優れたパフォーマンスを実現する。
ZICOは完全にベクトル化され、ミニバッチ化されており、幅広い領域で実用的なランタイムを持つ大きな変数集合を学習することができる。
論文 参考訳(メタデータ) (2025-12-18T06:26:43Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - UniZero: Generalized and Efficient Planning with Scalable Latent World Models [29.648382211926364]
UniZeroは、モジュールトランスフォーマーベースの世界モデルを使用して、共有潜在空間を効果的に学習する新しいアプローチである。
長期メモリを必要とするベンチマークにおいて、UniZeroが既存のベースラインを大幅に上回ることを示す。
Atari や DMControl のような標準のシングルタスク RL 設定では、UniZero は現在の最先端メソッドのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-15T15:24:15Z) - ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze [5.671696366787522]
本稿では,モンテカルロ木探索 (MCTS) アルゴリズムにおける木探索の高速化を目的としたReZeroという手法を提案する。
具体的には、特定の子ノードの値推定を用いて、対応するサブツリー探索時間を節約する逆ビュー再利用手法を用いて、トレーニングサンプルを再解析する。
Atari環境、DMControlスイート、ボードゲームで行った実験では、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-25T07:02:07Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - Improving Token-Based World Models with Parallel Observation Prediction [55.41770427527391]
トークンベースの世界モデル(TBWM)は、最近サンプル効率のよい方法として提案されている。
想像の中で、次の観測のシーケンシャルなトークン・バイ・トークンの生成は深刻なボトルネックをもたらす。
我々は、このボトルネックを解決するために、新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
論文 参考訳(メタデータ) (2024-02-08T12:58:07Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Continuous-Time Bayesian Networks with Clocks [33.774970857450086]
グラフ結合したセミマルコフ連鎖の集合を構成するために,ノードワイズクロックのセットを導入する。
パラメータと構造推論のためのアルゴリズムを提供し、局所的な依存関係を利用する。
論文 参考訳(メタデータ) (2020-07-01T09:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。