論文の概要: Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
- arxiv url: http://arxiv.org/abs/2502.00633v1
- Date: Sun, 02 Feb 2025 02:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.053528
- Title: Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks
- Title(参考訳): Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks (特集:情報ネットワーク)
- Authors: Zuyuan Zhang, Tian Lan,
- Abstract要約: モンテカルロ木探索(MCTS)を用いたLipschitz生涯計画のためのLiZeroについて述べる。
本稿では,ソースタスクから新しいタスクの探索・探索へ知識を伝達するための適応UCT(aUCT)の概念を提案する。
実験の結果,LiZeroは既存のMCTSや生涯学習ベースラインよりはるかに優れており,最適報酬への収束がはるかに速いことがわかった。
- 参考スコア(独自算出の注目度): 19.42056439537988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search (MCTS) has proven highly effective in solving complex planning tasks by balancing exploration and exploitation using Upper Confidence Bound for Trees (UCT). However, existing work have not considered MCTS-based lifelong planning, where an agent faces a non-stationary series of tasks -- e.g., with varying transition probabilities and rewards -- that are drawn sequentially throughout the operational lifetime. This paper presents LiZero for Lipschitz lifelong planning using MCTS. We propose a novel concept of adaptive UCT (aUCT) to transfer knowledge from a source task to the exploration/exploitation of a new task, depending on both the Lipschitz continuity between tasks and the confidence of knowledge in in Monte Carlo action sampling. We analyze LiZero's acceleration factor in terms of improved sampling efficiency and also develop efficient algorithms to compute aUCT in an online fashion by both data-driven and model-based approaches, whose sampling complexity and error bounds are also characterized. Experiment results show that LiZero significantly outperforms existing MCTS and lifelong learning baselines in terms of much faster convergence (3$\sim$4x) to optimal rewards. Our results highlight the potential of LiZero to advance decision-making and planning in dynamic real-world environments.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は、高次信頼境界木(UCT)を用いた探索と利用のバランスをとることで、複雑な計画課題の解決に極めて効果的であることが証明されている。
しかし、既存の作業はMCTSベースの生涯計画とはみなされておらず、エージェントは運用期間を通じて順次描画される、非定常的なタスク(例えば、様々な遷移確率と報酬を含む)に直面する。
本稿では, MCTSを用いたLipschitz生涯計画のためのLiZeroについて述べる。
本稿では,モンテカルロの行動サンプリングにおいて,タスク間のリプシッツ連続性と知識の信頼度に依存するため,ソースタスクから新しいタスクの探索・探索に知識を伝達する適応的UCT(aUCT)の概念を提案する。
我々は,サンプリング効率の向上の観点からLiZeroの加速係数を解析し,サンプリング複雑性と誤差境界を特徴付けるデータ駆動型およびモデルベースアプローチの両方により,オンライン方式でAUCTを効率的に計算するアルゴリズムを開発した。
実験結果から,LiZeroは既存のMCTSや生涯学習ベースラインよりもはるかに高速な収束(3$\sim$4x)で最適報酬を得られることがわかった。
この結果から,LiZeroの動的現実環境における意思決定と計画の進展の可能性を強調した。
関連論文リスト
- Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-09T08:52:27Z) - MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。
通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。
この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T17:46:08Z) - MASTER: A Multi-Agent System with LLM Specialized MCTS [11.780059513577848]
大規模言語モデル(LLM)は、問題解決のためにますます研究されている。
MCTSは、真の報酬分布を近似するために、広範囲なサンプリングシミュレーションに依存している。
LLM専門MCTSによるエージェント採用とコミュニケーションを協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T08:01:11Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。
このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。
大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文 参考訳(メタデータ) (2024-06-11T16:01:07Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learn-Prune-Share for Lifelong Learning [25.678753894026357]
本稿では,破滅的な忘れ,パシモニー,知識再利用の課題を同時に解決する学習規則共有(LPS)アルゴリズムを提案する。
LPSはADMMベースのプルーニング戦略を通じて、ネットワークをタスク固有のパーティションに分割する。
これにより忘れられなくなり、パルシモニーは維持される。
論文 参考訳(メタデータ) (2020-12-13T04:05:16Z) - Lipschitz Lifelong Reinforcement Learning [40.36085483977208]
本稿では,エージェントが一連の強化学習(RL)課題に直面している場合の知識伝達の問題について考察する。
マルコフ決定過程(MDP)の間に新しい計量を導入し、近接MDPが最適値関数を持つことを示す。
これらの理論的結果は、収束率を向上したPAC-MDPアルゴリズムを構築するために、Lifelong RLの値転送法に導かれる。
論文 参考訳(メタデータ) (2020-01-15T16:29:30Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。