論文の概要: SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search
- arxiv url: http://arxiv.org/abs/2510.16916v2
- Date: Tue, 21 Oct 2025 18:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.920675
- Title: SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search
- Title(参考訳): SolverLLM: LLM-Guided Searchによる最適化問題に対するテスト時間スケーリングの活用
- Authors: Dong Li, Xujiang Zhao, Linlin Yu, Yanchi Liu, Wei Cheng, Zhengzhang Chen, Zhong Chen, Feng Chen, Chen Zhao, Haifeng Chen,
- Abstract要約: 多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
- 参考スコア(独自算出の注目度): 58.116954449750544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) offer promising capabilities for tackling complex reasoning tasks, including optimization problems. However, existing methods either rely on prompt engineering, which leads to poor generalization across problem types, or require costly supervised training. We introduce SolverLLM, a training-free framework that leverages test-time scaling to solve diverse optimization problems. Rather than solving directly, SolverLLM generates mathematical formulations and translates them into solver-ready code, guided by a novel Monte Carlo Tree Search (MCTS) strategy. To enhance the search process, we modify classical MCTS with (1) dynamic expansion for adaptive formulation generation, (2) prompt backpropagation to guide exploration via outcome-driven feedback, and (3) uncertainty backpropagation to incorporate reward reliability into decision-making. Experiments on six standard benchmark datasets demonstrate that SolverLLM outperforms both prompt-based and learning-based baselines, achieving strong generalization without additional training.
- Abstract(参考訳): 大きな言語モデル(LLM)は、最適化問題を含む複雑な推論タスクに取り組むための有望な機能を提供する。
しかし、既存の手法はプロンプトエンジニアリングに依存しており、問題の種類をまたいだ一般化が不十分である。
テスト時間スケーリングを活用して多様な最適化問題を解決する,トレーニングフリーのフレームワークであるSolverLLMを紹介した。
直接解決するのではなく、SolverLLMは数学的定式化を生成し、新しいモンテカルロ木探索(MCTS)戦略によって導かれる解法対応のコードに変換する。
探索プロセスを強化するため,(1)適応型定式化生成のための動的拡張,(2)結果駆動型フィードバックによる探索のためのバックプロパゲーション,(3)報酬信頼性を意思決定に組み込む不確実なバックプロパゲーションを改良した。
6つの標準ベンチマークデータセットの実験では、SolverLLMはプロンプトベースのベースラインと学習ベースのベースラインの両方を上回り、追加のトレーニングなしで強力な一般化を実現している。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning [31.643337118330944]
大きな言語モデル(LLM)は、推論タスクを扱う素晴らしい能力を示している。
LLMベースのほとんどの手法はワンサイズ・オールアプローチを採用している。
これらの手法の柔軟性は不要な計算オーバーヘッドや準最適性能をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-10-01T12:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。