論文の概要: Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2602.04248v1
- Date: Wed, 04 Feb 2026 06:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.399028
- Title: Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search
- Title(参考訳): Empirical-MCTS: Dual-experience Monte Carlo Tree Searchによる連続エージェント進化
- Authors: Hao Lu, Haoyuan Huang, Yulin Zhou, Chen Li, Ningxin Zhu,
- Abstract要約: Empirical-MCTSは、ステートレス検索を連続的な非パラメトリック学習プロセスに変換するデュアルループフレームワークである。
Inpirical-MCTS はモンテカルロ木探索法とスタンドアロンの体験駆動型エージェントのどちらよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.50683307818034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling strategies, particularly Monte Carlo Tree Search (MCTS), have significantly enhanced the reasoning capabilities of Large Language Models (LLMs). However, current approaches remain predominantly stateless, discarding successful reasoning patterns after each problem instance and failing to mimic the empirical accumulation of wisdom characteristic of human problem-solving. To bridge this gap, we introduce Empirical-MCTS, a dual-loop framework that transforms stateless search into a continuous, non-parametric learning process. The framework unifies local exploration with global memory optimization through two novel mechanisms: Pairwise-Experience-Evolutionary Meta-Prompting (PE-EMP) and a Memory Optimization Agent. PE-EMP functions as a reflexive optimizer within the local search, utilizing pairwise feedback to dynamically synthesize adaptive criteria and evolve meta-prompts (system prompts) in real-time. Simultaneously, the Memory Optimization Agent manages a global repository as a dynamic policy prior, employing atomic operations to distill high-quality insights across problems. Extensive evaluations on complex reasoning benchmarks, including AIME25, ARC-AGI-2, and MathArena Apex, demonstrate that Empirical-MCTS significantly outperforms both stateless MCTS strategies and standalone experience-driven agents. These results underscore the critical necessity of coupling structured search with empirical accumulation for mastering complex, open-ended reasoning tasks.
- Abstract(参考訳): 特にモンテカルロ木探索(MCTS)は,大規模言語モデル(LLM)の推論能力を大幅に向上させた。
しかし、現在のアプローチは、主にステートレスであり、各問題発生後の推論パターンを破棄し、人間の問題解決に特徴的な知恵の実証的な蓄積を模倣しなかった。
このギャップを埋めるために、ステートレス検索を連続的な非パラメトリック学習プロセスに変換するデュアルループフレームワークであるEpirical-MCTSを導入する。
このフレームワークは、Pairwise-Experience-Evolutionary Meta-Prompting(PE-EMP)とMemory Optimization Agent(メモリ最適化エージェント)という2つの新しいメカニズムを通じて、グローバルメモリ最適化による局所探索を統合する。
PE-EMP は局所探索における反射的最適化器として機能し、相互フィードバックを利用して適応的な基準を動的に合成し、メタプロンプト(システムプロンプト)をリアルタイムで進化させる。
同時に、メモリ最適化エージェントはグローバルリポジトリを動的ポリシーとして管理し、問題に対する高品質な洞察を抽出するためにアトミック操作を使用する。
AIME25、ARC-AGI-2、MathArena Apexなどの複雑な推論ベンチマークに対する広範な評価は、Empirical-MCTSがステートレスMCTS戦略とスタンドアロンのエクスペリエンス駆動エージェントの両方で著しく優れていることを示した。
これらの結果は、複雑でオープンな推論タスクを習得する上で、構造的探索と経験的蓄積とを結合させることが不可欠であることを示す。
関連論文リスト
- FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation [13.855534865501369]
小型言語モデル(SLM)は、その効率的で低レイテンシな推論のため、コスト感受性とリソース制限の設定に魅力的である。
本稿では,SLMに戦略的思考パターンを付加したモジュラー推論フレームワークであるFutureMindを提案する。
論文 参考訳(メタデータ) (2026-02-01T13:26:04Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。
R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。
MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文 参考訳(メタデータ) (2025-07-08T00:41:12Z) - MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [61.11836311160951]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。
通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。
この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T17:46:08Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。