論文の概要: Improving Monte Carlo Tree Search for Symbolic Regression
- arxiv url: http://arxiv.org/abs/2509.15929v1
- Date: Fri, 19 Sep 2025 12:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.160158
- Title: Improving Monte Carlo Tree Search for Symbolic Regression
- Title(参考訳): シンボリック回帰のためのモンテカルロ木探索の改良
- Authors: Zhengyao Huang, Daniel Zhengyu Huang, Tiannan Xiao, Dina Ma, Zhenyu Ming, Hao Shi, Yuanhui Wen,
- Abstract要約: 記号回帰は、望ましい目的を満たす簡潔で解釈可能な数学的表現を見つけることを目的としている。
2つの重要な革新を通じてこれらの制限に対処するシンボリックレグレッションのための改良されたフレームワークを提案する。
本手法は, 回復率の観点から, 最先端ライブラリと競合する性能を達成し, 精度とモデル複雑性の両面において良好な位置を占める。
- 参考スコア(独自算出の注目度): 13.641201012951356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic regression aims to discover concise, interpretable mathematical expressions that satisfy desired objectives, such as fitting data, posing a highly combinatorial optimization problem. While genetic programming has been the dominant approach, recent efforts have explored reinforcement learning methods for improving search efficiency. Monte Carlo Tree Search (MCTS), with its ability to balance exploration and exploitation through guided search, has emerged as a promising technique for symbolic expression discovery. However, its traditional bandit strategies and sequential symbol construction often limit performance. In this work, we propose an improved MCTS framework for symbolic regression that addresses these limitations through two key innovations: (1) an extreme bandit allocation strategy tailored for identifying globally optimal expressions, with finite-time performance guarantees under polynomial reward decay assumptions; and (2) evolution-inspired state-jumping actions such as mutation and crossover, which enable non-local transitions to promising regions of the search space. These state-jumping actions also reshape the reward landscape during the search process, improving both robustness and efficiency. We conduct a thorough numerical study to the impact of these improvements and benchmark our approach against existing symbolic regression methods on a variety of datasets, including both ground-truth and black-box datasets. Our approach achieves competitive performance with state-of-the-art libraries in terms of recovery rate, attains favorable positions on the Pareto frontier of accuracy versus model complexity. Code is available at https://github.com/PKU-CMEGroup/MCTS-4-SR.
- Abstract(参考訳): シンボリック回帰は、厳密で解釈可能な数学的表現の発見を目的とする。
近年, 遺伝的プログラミングが主流となっているが, 探索効率向上のための強化学習手法が研究されている。
モンテカルロ木探索(MCTS)は、ガイド付き探索による探索と利用のバランスを保ち、シンボル表現発見の有望な手法として登場した。
しかし、その伝統的なバンディット戦略とシーケンシャルなシンボル構成は、しばしばパフォーマンスを制限している。
本研究では,これらの制限に対処するMCTSフレームワークの改良について,(1)多項式報酬の減衰仮定の下での有限時間性能保証を伴う大域的最適表現の特定に適した極端帯域割当戦略,(2)突然変異や交叉といった進化にインスパイアされた状態跳躍作用により,探索空間の有望な領域への非局所的な遷移を可能にすること,の2つの主要な革新を通じて,これらの制限に対処する改良されたMCTSフレームワークを提案する。
これらのステートジャンピングアクションは、検索プロセス中に報酬のランドスケープを再構築し、堅牢性と効率性の両方を改善します。
我々はこれらの改善の影響について徹底的な数値的な研究を行い、既存のシンボル回帰手法に対するアプローチを、地上構造とブラックボックスの両方のデータセットを含む様々なデータセット上でベンチマークする。
本手法は,回復率の観点から最先端ライブラリと競合する性能を達成し,Paretoフロンティアにおける精度とモデル複雑性を比較検討する。
コードはhttps://github.com/PKU-CMEGroup/MCTS-4-SRで公開されている。
関連論文リスト
- Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning [3.6333725470852443]
我々は,モンテカルロ木探索を緩和して,嗜好に基づく強化学習における政策最適化を改善する方法について検討する。
本稿では,部分的に明らかにされたMCTSロールアウトから完成度を導出するGRPOトレーニングパラダイムを提案する。
最初の結果は、構造化された利点推定は推論品質を安定させ、より良く反映できるが、利点飽和や報奨信号の崩壊といった課題は残ることを示唆している。
論文 参考訳(メタデータ) (2025-09-11T09:18:07Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるために,新しい記号回帰手法を提案する。
我々の研究は、データ固有の式生成器の学習に焦点を当てた、一般的なDSRフレームワークと一致しています。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - SPO: Sequential Monte Carlo Policy Optimisation [41.52684912140086]
SPO:Sequential Monte Carlo Policy optimizationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-12T10:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。