論文の概要: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
- arxiv url: http://arxiv.org/abs/2502.11422v2
- Date: Tue, 17 Jun 2025 02:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:19.826407
- Title: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
- Title(参考訳): ヒューリスティックスの計画:モンテカルロ木探索による大規模言語モデルの戦略的計画とヒューリスティック最適化の自動化
- Authors: Chaoxu Mu, Xufeng Zhang, Hui Wang,
- Abstract要約: 大規模言語モデル (LLM) の自己回帰とモンテカルロ木探索 (MCTS) を統合する最適化手法である。
PoHは、そのパフォーマンスを評価し、改善提案を提供することによって、生成を反復的に洗練する。
本稿では,旅行セールスマン問題(TSP)とフローショップスケジューリング問題(FSSP)の解決にPoHを適用した。
- 参考スコア(独自算出の注目度): 7.755152930120769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heuristics have achieved great success in solving combinatorial optimization problems (COPs). However, heuristics designed by humans require too much domain knowledge and testing time. Given the fact that Large Language Models (LLMs) possess strong capabilities to understand and generate content, and a knowledge base that covers various domains, which offer a novel way to automatically optimize heuristics. Therefore, we propose Planning of Heuristics (PoH), an optimization method that integrates the self-reflection of LLMs with the Monte Carlo Tree Search (MCTS), a well-known planning algorithm. PoH iteratively refines generated heuristics by evaluating their performance and providing improvement suggestions. Our method enables to iteratively evaluate the generated heuristics (states) and improve them based on the improvement suggestions (actions) and evaluation results (rewards), by effectively simulating future states to search for paths with higher rewards. In this paper, we apply PoH to solve the Traveling Salesman Problem (TSP) and the Flow Shop Scheduling Problem (FSSP). The experimental results show that PoH outperforms other hand-crafted heuristics and Automatic Heuristic Design (AHD) by other LLMs-based methods, and achieves the significant improvements and the state-of-the-art performance of our proposed method in automating heuristic optimization with LLMs to solve COPs.
- Abstract(参考訳): ヒューリスティックスは組合せ最適化問題(COP)の解法において大きな成功を収めた。
しかし、人間によって設計されたヒューリスティックスにはドメイン知識とテスト時間が多すぎる。
LLM(Large Language Models)には、コンテンツを理解して生成する強力な能力と、さまざまなドメインをカバーする知識ベースがあり、ヒューリスティックスを自動的に最適化する新しい方法を提供する。
そこで本稿では,LLMの自己回帰をMCTS(Monte Carlo Tree Search)と統合する最適化手法であるPoH(Planning of Heuristics)を提案する。
PoHは、そのパフォーマンスを評価し、改善提案を提供することで、生成したヒューリスティックを反復的に洗練する。
提案手法は,提案した改善提案(アクション)と評価結果(リワード)に基づいて,生成したヒューリスティックス(状態)を反復的に評価し,改善することを可能にする。
本稿では,旅行セールスマン問題 (TSP) とフローショップスケジューリング問題 (FSSP) の解決にPoHを適用した。
実験の結果,PoHは他の手作りのヒューリスティックスや自動ヒューリスティックデザイン(AHD)よりも優れており,提案手法の大幅な改良と性能向上を実現し,LLMによるヒューリスティック最適化の自動化を実現している。
関連論文リスト
- Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Improving Existing Optimization Algorithms with LLMs [0.9668407688201361]
本稿では,Large Language Models (LLM) が既存の最適化アルゴリズムをどのように拡張するかを検討する。
事前学習した知識を用いて、革新的なバリエーションと実装戦略を提案する能力を示す。
以上の結果から, GPT-4oによる代替案はCMSAのエキスパート設計よりも優れていた。
論文 参考訳(メタデータ) (2025-02-12T10:58:57Z) - Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design [33.58608225370497]
大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。
本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
論文 参考訳(メタデータ) (2025-01-15T06:00:50Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。