論文の概要: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
- arxiv url: http://arxiv.org/abs/2502.11422v3
- Date: Fri, 20 Jun 2025 07:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.448544
- Title: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
- Title(参考訳): ヒューリスティックスの計画:モンテカルロ木探索による大規模言語モデルの戦略的計画とヒューリスティック最適化の自動化
- Authors: Hui Wang, Xufeng Zhang, Chaoxu Mu,
- Abstract要約: ヒューリスティックス計画(PoH: Planning of Heuristics)は, LLM自己回帰とモンテカルロ木探索を統合する最適化手法である。
PoHは、そのパフォーマンスを評価し、改善提案を提供することで、生成した報酬を反復的に洗練する。
本稿では,旅行セールスマン問題とフローショップスケジューリング問題の解決にPoHを適用した。
- 参考スコア(独自算出の注目度): 7.755152930120769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heuristics have achieved great success in solving combinatorial optimization problems~(COPs). However, heuristics designed by humans require too much domain knowledge and testing time. Since Large Language Models~(LLMs) possess strong capabilities to understand and generate content with a knowledge base that covers various domains, they offer potential ways to automatically optimize heuristics. To this end, we propose Planning of Heuristics~(PoH), an optimization method that integrates LLM self-reflection with Monte Carlo Tree Search, a well-known planning algorithm. PoH iteratively refines generated heuristics by evaluating their performance and providing improvement suggestions. Our method enables to iteratively evaluate the generated heuristics~(states) and improve them based on the improvement suggestions~(actions) and evaluation results~(rewards), by effectively simulating future states to search for paths with higher rewards. In this paper, we apply PoH to solve the Traveling Salesman Problem and the Flow Shop Scheduling Problem. The experimental results show that PoH outperforms hand-crafted heuristics and other Automatic Heuristic Design methods based on LLMs, and achieves the state-of-the-art performance in automating heuristic optimization with LLMs to solve tested COPs, especially with large sizes.
- Abstract(参考訳): ヒューリスティックスは組合せ最適化問題の解法(COP)において大きな成功を収めた。
しかし、人間によって設計されたヒューリスティックスにはドメイン知識とテスト時間が多すぎる。
大きな言語モデル~(LLM)は、様々なドメインをカバーする知識ベースでコンテンツを理解し、生成する強力な能力を持っているため、ヒューリスティックスを自動的に最適化する潜在的な方法を提供する。
この目的のために, LLM自己回帰とモンテカルロ木探索を統合した最適化手法であるPlanning of Heuristics~(PoH)を提案する。
PoHは、そのパフォーマンスを評価し、改善提案を提供することで、生成したヒューリスティックを反復的に洗練する。
提案手法により,提案手法により生成したヒューリスティックス~(状態)を反復的に評価し,改善提案~(アクション)と評価結果〜(リワード)に基づいて改善することができる。
本稿では,旅行セールスマン問題とフローショップスケジューリング問題の解決にPoHを適用した。
実験の結果,PoH は LLM に基づく手作りヒューリスティックや他の自動ヒューリスティック設計手法よりも優れており,特に大規模で試験された COP を解くために LLM を用いたヒューリスティック最適化の自動化における最先端性能を実現していることがわかった。
関連論文リスト
- Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Improving Existing Optimization Algorithms with LLMs [0.9668407688201361]
本稿では,Large Language Models (LLM) が既存の最適化アルゴリズムをどのように拡張するかを検討する。
事前学習した知識を用いて、革新的なバリエーションと実装戦略を提案する能力を示す。
以上の結果から, GPT-4oによる代替案はCMSAのエキスパート設計よりも優れていた。
論文 参考訳(メタデータ) (2025-02-12T10:58:57Z) - Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design [33.58608225370497]
大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。
本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
論文 参考訳(メタデータ) (2025-01-15T06:00:50Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。