論文の概要: Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
- arxiv url: http://arxiv.org/abs/2502.00633v1
- Date: Sun, 02 Feb 2025 02:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:59.676054
- Title: Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
- Title(参考訳): Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks (特集:情報ネットワーク)
- Authors: Zuyuan Zhang, Tian Lan,
- Abstract要約: モンテカルロ木探索(MCTS)を用いたLipschitz生涯計画のためのLiZeroについて述べる。
本稿では,ソースタスクから新しいタスクの探索・探索へ知識を伝達するための適応UCT(aUCT)の概念を提案する。
実験の結果,LiZeroは既存のMCTSや生涯学習ベースラインよりはるかに優れており,最適報酬への収束がはるかに速いことがわかった。
- 参考スコア(独自算出の注目度): 19.42056439537988
- License:
- Abstract: Monte Carlo Tree Search (MCTS) has proven highly effective in solving complex planning tasks by balancing exploration and exploitation using Upper Confidence Bound for Trees (UCT). However, existing work have not considered MCTS-based lifelong planning, where an agent faces a non-stationary series of tasks -- e.g., with varying transition probabilities and rewards -- that are drawn sequentially throughout the operational lifetime. This paper presents LiZero for Lipschitz lifelong planning using MCTS. We propose a novel concept of adaptive UCT (aUCT) to transfer knowledge from a source task to the exploration/exploitation of a new task, depending on both the Lipschitz continuity between tasks and the confidence of knowledge in in Monte Carlo action sampling. We analyze LiZero's acceleration factor in terms of improved sampling efficiency and also develop efficient algorithms to compute aUCT in an online fashion by both data-driven and model-based approaches, whose sampling complexity and error bounds are also characterized. Experiment results show that LiZero significantly outperforms existing MCTS and lifelong learning baselines in terms of much faster convergence (3$\sim$4x) to optimal rewards. Our results highlight the potential of LiZero to advance decision-making and planning in dynamic real-world environments.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は、高次信頼境界木(UCT)を用いた探索と利用のバランスをとることで、複雑な計画課題の解決に極めて効果的であることが証明されている。
しかし、既存の作業はMCTSベースの生涯計画とはみなされておらず、エージェントは運用期間を通じて順次描画される、非定常的なタスク(例えば、様々な遷移確率と報酬を含む)に直面する。
本稿では, MCTSを用いたLipschitz生涯計画のためのLiZeroについて述べる。
本稿では,モンテカルロの行動サンプリングにおいて,タスク間のリプシッツ連続性と知識の信頼度に依存するため,ソースタスクから新しいタスクの探索・探索に知識を伝達する適応的UCT(aUCT)の概念を提案する。
我々は,サンプリング効率の向上の観点からLiZeroの加速係数を解析し,サンプリング複雑性と誤差境界を特徴付けるデータ駆動型およびモデルベースアプローチの両方により,オンライン方式でAUCTを効率的に計算するアルゴリズムを開発した。
実験結果から,LiZeroは既存のMCTSや生涯学習ベースラインよりもはるかに高速な収束(3$\sim$4x)で最適報酬を得られることがわかった。
この結果から,LiZeroの動的現実環境における意思決定と計画の進展の可能性を強調した。
関連論文リスト
- MASTER: A Multi-Agent System with LLM Specialized MCTS [11.780059513577848]
大規模言語モデル(LLM)は、問題解決のためにますます研究されている。
MCTSは、真の報酬分布を近似するために、広範囲なサンプリングシミュレーションに依存している。
LLM専門MCTSによるエージェント採用とコミュニケーションを協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T08:01:11Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。
このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。
大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文 参考訳(メタデータ) (2024-06-11T16:01:07Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learn-Prune-Share for Lifelong Learning [25.678753894026357]
本稿では,破滅的な忘れ,パシモニー,知識再利用の課題を同時に解決する学習規則共有(LPS)アルゴリズムを提案する。
LPSはADMMベースのプルーニング戦略を通じて、ネットワークをタスク固有のパーティションに分割する。
これにより忘れられなくなり、パルシモニーは維持される。
論文 参考訳(メタデータ) (2020-12-13T04:05:16Z) - Lipschitz Lifelong Reinforcement Learning [40.36085483977208]
本稿では,エージェントが一連の強化学習(RL)課題に直面している場合の知識伝達の問題について考察する。
マルコフ決定過程(MDP)の間に新しい計量を導入し、近接MDPが最適値関数を持つことを示す。
これらの理論的結果は、収束率を向上したPAC-MDPアルゴリズムを構築するために、Lifelong RLの値転送法に導かれる。
論文 参考訳(メタデータ) (2020-01-15T16:29:30Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。