Fugu-MT 論文翻訳(概要): ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze

論文の概要: ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze

arxiv url: http://arxiv.org/abs/2404.16364v1
Date: Thu, 25 Apr 2024 07:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 14:38:43.566414
Title: ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze
Title（参考訳）: ReZero: ジャストインタイムとスピーディーリアナライズによるMCTSベースのアルゴリズムの強化
Authors: Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Jing Yang,
Abstract要約: 本稿では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減する手法を提案する。アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
参考スコア（独自算出の注目度）: 3.331223940028969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: MCTS-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost MCTS-based algorithms. Specifically, we propose a new scheme that simplifies data collecting and reanalyzing, which significantly reduces the search cost while guarantees the performance as well. Furthermore, to accelerate each search process, we conceive a method to reuse the subsequent information in the trajectory. The corresponding analysis conducted on the bandit model also provides auxiliary theoretical substantiation for our design. Experiments conducted on Atari environments and board games demonstrates that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero.
Abstract（参考訳）: MuZeroなどのMCTSベースのアルゴリズムは、様々な意思決定領域で広く成功している。これらのアルゴリズムは、ウォールタイムの時間消費を犠牲にして、サンプル効率を高めるために再分析プロセスを採用している。そこで本研究では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減し,性能も保証する新しい手法を提案する。さらに,各探索過程を高速化するために,軌跡内のその後の情報を再利用する手法を提案する。また, バンディットモデルを用いた解析により, 設計の補助的理論的サブストラテレーションも実現した。アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。

関連論文リスト

RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation [5.882211463956185]
RPM-MCTSはモンテカルロ木探索に基づくプロセスリワードモデルとして知識検索を利用する効果的な手法である。 RPM-MCTSは, トークン消費の約15%削減を達成しつつ, 現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-11-25T04:06:02Z)
TransZero: Parallel Tree Expansion in MuZero using Transformer Networks [0.0]
モンテカルロ木探索におけるシーケンシャルボトルネックを除去するモデルベース強化学習アルゴリズムであるTransZeroを提案する。我々は,TransZeroがMuZeroと比較して壁面時間で最大11倍のスピードアップを達成することを示す。
論文参考訳（メタデータ） (2025-09-14T12:20:38Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文参考訳（メタデータ） (2025-03-10T17:40:43Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Optimizing Tensor Computation Graphs with Equality Saturation and Monte Carlo Tree Search [0.0]
モンテカルロ木探索を用いて優れた表現を構築するテンソルグラフ書き換え手法を提案する。提案手法は,既存の手法と比較して,ニューラルネットワークの推論速度を最大11%向上させる。
論文参考訳（メタデータ） (2024-10-07T22:22:02Z)
Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。 NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文参考訳（メタデータ） (2024-08-06T13:49:01Z)
Cascade Reward Sampling for Efficient Decoding-Time Alignment [17.278488115500615]
復号時間アライメントにおける効率の両立を図るためにカスケード逆サンプリング(CARDS)を導入する。 CARDSは、大きな言語モデル(LLM)と報酬モデル(RM)の両方の冗長な計算を最小化する
論文参考訳（メタデータ） (2024-06-24T04:08:35Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。 RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文参考訳（メタデータ） (2023-08-10T03:14:19Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
A Faster, Lighter and Stronger Deep Learning-Based Approach for Place Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文参考訳（メタデータ） (2022-11-27T15:46:53Z)
Boosting Tail Neural Network for Realtime Custom Keyword Spotting [2.5137859989323537]
本稿では,リアルタイムカスタムキーワードスポッティング(RCKS)の性能向上を目的としたBoosting Tail Neural Network(BTNN)を提案する。脳科学にインスパイアされた多くの機械学習アルゴリズムは、弱い分類器を使って困難な問題を解決するために開発された。
論文参考訳（メタデータ） (2022-05-24T13:26:39Z)
Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文参考訳（メタデータ） (2021-10-30T09:13:39Z)
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-03T21:00:53Z)
Circa: Stochastic ReLUs for Private Deep Learning [6.538025863698682]
我々はReLU計算を再考し、ニューラルネットワークに適したPIの最適化を提案する。具体的には,ReLUを近似手形テストとして再構成し,手形テストのための新しい切り抜き手法を導入する。最大4.7倍のストレージと3倍のランタイムをベースライン実装で実現した。
論文参考訳（メタデータ） (2021-06-15T22:52:45Z)
FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。 NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。 Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文参考訳（メタデータ） (2021-05-25T06:32:52Z)
Combined Depth Space based Architecture Search For Person Re-identification [70.86236888223569]
個人再識別(ReID)のための軽量で適切なネットワークの設計を目指しています。本研究では,CDNetと呼ばれる効率的なネットワークアーキテクチャの探索に基づく,複合深さ空間(Componed Depth Space, CDS)と呼ばれる新しい検索空間を提案する。そこで我々はTop-k Sample Search戦略という低コストの検索戦略を提案し、検索空間をフル活用し、局所的な最適結果のトラップを避ける。
論文参考訳（メタデータ） (2021-04-09T02:40:01Z)
Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文参考訳（メタデータ） (2020-02-14T19:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。