Fugu-MT 論文翻訳(概要): Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization

論文の概要: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization

arxiv url: http://arxiv.org/abs/2502.11422v3
Date: Fri, 20 Jun 2025 07:14:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 12:57:34.448544
Title: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
Title（参考訳）: ヒューリスティックスの計画:モンテカルロ木探索による大規模言語モデルの戦略的計画とヒューリスティック最適化の自動化
Authors: Hui Wang, Xufeng Zhang, Chaoxu Mu,
Abstract要約: ヒューリスティックス計画(PoH: Planning of Heuristics)は, LLM自己回帰とモンテカルロ木探索を統合する最適化手法である。 PoHは、そのパフォーマンスを評価し、改善提案を提供することで、生成した報酬を反復的に洗練する。本稿では,旅行セールスマン問題とフローショップスケジューリング問題の解決にPoHを適用した。
参考スコア（独自算出の注目度）: 7.755152930120769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Heuristics have achieved great success in solving combinatorial optimization problems~(COPs). However, heuristics designed by humans require too much domain knowledge and testing time. Since Large Language Models~(LLMs) possess strong capabilities to understand and generate content with a knowledge base that covers various domains, they offer potential ways to automatically optimize heuristics. To this end, we propose Planning of Heuristics~(PoH), an optimization method that integrates LLM self-reflection with Monte Carlo Tree Search, a well-known planning algorithm. PoH iteratively refines generated heuristics by evaluating their performance and providing improvement suggestions. Our method enables to iteratively evaluate the generated heuristics~(states) and improve them based on the improvement suggestions~(actions) and evaluation results~(rewards), by effectively simulating future states to search for paths with higher rewards. In this paper, we apply PoH to solve the Traveling Salesman Problem and the Flow Shop Scheduling Problem. The experimental results show that PoH outperforms hand-crafted heuristics and other Automatic Heuristic Design methods based on LLMs, and achieves the state-of-the-art performance in automating heuristic optimization with LLMs to solve tested COPs, especially with large sizes.
Abstract（参考訳）: ヒューリスティックスは組合せ最適化問題の解法(COP)において大きな成功を収めた。しかし、人間によって設計されたヒューリスティックスにはドメイン知識とテスト時間が多すぎる。大きな言語モデル~(LLM)は、様々なドメインをカバーする知識ベースでコンテンツを理解し、生成する強力な能力を持っているため、ヒューリスティックスを自動的に最適化する潜在的な方法を提供する。この目的のために, LLM自己回帰とモンテカルロ木探索を統合した最適化手法であるPlanning of Heuristics~(PoH)を提案する。 PoHは、そのパフォーマンスを評価し、改善提案を提供することで、生成したヒューリスティックを反復的に洗練する。提案手法により,提案手法により生成したヒューリスティックス~(状態)を反復的に評価し,改善提案～(アクション)と評価結果〜(リワード)に基づいて改善することができる。本稿では,旅行セールスマン問題とフローショップスケジューリング問題の解決にPoHを適用した。実験の結果,PoH は LLM に基づく手作りヒューリスティックや他の自動ヒューリスティック設計手法よりも優れており,特に大規模で試験された COP を解くために LLM を用いたヒューリスティック最適化の自動化における最先端性能を実現していることがわかった。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Leveraging Large Language Models to Develop Heuristics for Emerging Optimization Problems [0.0]
組合せ最適化問題は、しばしば効率的な解を生成するアルゴリズムに依存する。人工知能の最近の進歩は、進化の枠組みを通じて生成を自動化する可能性を実証している。本研究では,問題固有の記述を組み込んだコンテキスト進化型ヒューリスティックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-05T10:22:49Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Improving Existing Optimization Algorithms with LLMs [0.9668407688201361]
本稿では,Large Language Models (LLM) が既存の最適化アルゴリズムをどのように拡張するかを検討する。事前学習した知識を用いて、革新的なバリエーションと実装戦略を提案する能力を示す。以上の結果から, GPT-4oによる代替案はCMSAのエキスパート設計よりも優れていた。
論文参考訳（メタデータ） (2025-02-12T10:58:57Z)
Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design [33.58608225370497]
大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
論文参考訳（メタデータ） (2025-01-15T06:00:50Z)
Deep Insights into Automated Optimization with Large Language Models and Evolutionary Algorithms [3.833708891059351]
大きな言語モデル(LLM)と進化的アルゴリズム(EA)は、制限を克服し、最適化をより自動化するための有望な新しいアプローチを提供する。 LLMは最適化戦略の生成、洗練、解釈が可能な動的エージェントとして機能する。 EAは進化作用素を通して、複雑な解空間を効率的に探索する。
論文参考訳（メタデータ） (2024-10-28T09:04:49Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文参考訳（メタデータ） (2022-09-27T17:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。