Fugu-MT 論文翻訳(概要): SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search

論文の概要: SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search

arxiv url: http://arxiv.org/abs/2510.16916v2
Date: Tue, 21 Oct 2025 18:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:11.920675
Title: SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search
Title（参考訳）: SolverLLM: LLM-Guided Searchによる最適化問題に対するテスト時間スケーリングの活用
Authors: Dong Li, Xujiang Zhao, Linlin Yu, Yanchi Liu, Wei Cheng, Zhengzhang Chen, Zhong Chen, Feng Chen, Chen Zhao, Haifeng Chen,
Abstract要約: 多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
参考スコア（独自算出の注目度）: 58.116954449750544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) offer promising capabilities for tackling complex reasoning tasks, including optimization problems. However, existing methods either rely on prompt engineering, which leads to poor generalization across problem types, or require costly supervised training. We introduce SolverLLM, a training-free framework that leverages test-time scaling to solve diverse optimization problems. Rather than solving directly, SolverLLM generates mathematical formulations and translates them into solver-ready code, guided by a novel Monte Carlo Tree Search (MCTS) strategy. To enhance the search process, we modify classical MCTS with (1) dynamic expansion for adaptive formulation generation, (2) prompt backpropagation to guide exploration via outcome-driven feedback, and (3) uncertainty backpropagation to incorporate reward reliability into decision-making. Experiments on six standard benchmark datasets demonstrate that SolverLLM outperforms both prompt-based and learning-based baselines, achieving strong generalization without additional training.
Abstract（参考訳）: 大きな言語モデル(LLM)は、最適化問題を含む複雑な推論タスクに取り組むための有望な機能を提供する。しかし、既存の手法はプロンプトエンジニアリングに依存しており、問題の種類をまたいだ一般化が不十分である。テスト時間スケーリングを活用して多様な最適化問題を解決する,トレーニングフリーのフレームワークであるSolverLLMを紹介した。直接解決するのではなく、SolverLLMは数学的定式化を生成し、新しいモンテカルロ木探索(MCTS)戦略によって導かれる解法対応のコードに変換する。探索プロセスを強化するため,(1)適応型定式化生成のための動的拡張,(2)結果駆動型フィードバックによる探索のためのバックプロパゲーション,(3)報酬信頼性を意思決定に組み込む不確実なバックプロパゲーションを改良した。 6つの標準ベンチマークデータセットの実験では、SolverLLMはプロンプトベースのベースラインと学習ベースのベースラインの両方を上回り、追加のトレーニングなしで強力な一般化を実現している。

論文の概要: SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search

関連論文リスト