Fugu-MT 論文翻訳(概要): Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization

論文の概要: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization

arxiv url: http://arxiv.org/abs/2502.11422v1
Date: Mon, 17 Feb 2025 04:35:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.070977
Title: Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization
Title（参考訳）: ヒューリスティックスの計画:モンテカルロ木探索による大規模言語モデルの戦略的計画とヒューリスティック最適化の自動化
Authors: Chaoxu Mu, Xufeng Zhang, Hui Wang,
Abstract要約: ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。 PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
参考スコア（独自算出の注目度）: 7.755152930120769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Heuristics have achieved great success in solv- ing combinatorial optimization problems (COPs). However, heuristics designed by humans re- quire too much domain knowledge and testing time. Given the fact that Large Language Mod- els (LLMs) possess strong capabilities to under- stand and generate content, and a knowledge base that covers various domains, which offer a novel way to automatically optimize heuristics. There- fore, we propose Planning of Heuristics (PoH), an optimization method that integrates the self- reflection of LLMs with the Monte Carlo Tree Search (MCTS), a well-known planning algo- rithm. PoH iteratively refines generated heuristics by evaluating their performance and providing im- provement suggestions. Our method enables to it- eratively evaluate the generated heuristics (states) and improve them based on the improvement sug- gestions (actions) and evaluation results (rewards), by effectively simulating future states to search for paths with higher rewards. In this paper, we apply PoH to solve the Traveling Salesman Prob- lem (TSP) and the Flow Shop Scheduling Prob- lem (FSSP). The experimental results show that PoH outperforms other hand-crafted heuristics and Automatic Heuristic Design (AHD) by other LLMs-based methods, and achieves the signifi- cant improvements and the state-of-the-art per- formance of our proposed method in automating heuristic optimization with LLMs to solve COPs.
Abstract（参考訳）: ヒューリスティックスは COP (solv-ing combinatorial optimization problem) において大きな成功を収めた。しかしながら、人間が設計したヒューリスティックスはドメインの知識とテスト時間を再取得する。 LLM(Large Language Mod- el)には、アンダースタンドとコンテント生成の強力な能力と、さまざまなドメインをカバーする知識ベースがあり、ヒューリスティックスを自動的に最適化する新しい方法を提供する。そこで我々は,LLMの自己反射をモンテカルロ木探索 (MCTS) と統合する最適化手法であるPlanning of Heuristics (PoH) を提案する。 PoHは、生成したヒューリスティックを反復的に洗練し、その性能を評価し、即時証明の提案を提供する。提案手法は, 得られたヒューリスティックス(状態)を効率よく評価し, より高報酬のパスを探すために, 将来の状態を効果的にシミュレートすることにより, 改善のsug-gestions(行動)と評価結果(回帰)に基づいて改善することができる。本稿では,PoHを用いてトラベリングセールスマン Prob-lem (TSP) とフローショップ Scheduling Prob-lem (FSSP) を解く。実験の結果,PoHは他の手作りのヒューリスティックや自動ヒューリスティックデザイン(AHD)よりも優れた性能を示し,提案手法のシグニフィ・キャント改良と最先端の一形式化を実現し,LLMによるヒューリスティック最適化の自動化を実現している。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Leveraging Large Language Models to Develop Heuristics for Emerging Optimization Problems [0.0]
組合せ最適化問題は、しばしば効率的な解を生成するアルゴリズムに依存する。人工知能の最近の進歩は、進化の枠組みを通じて生成を自動化する可能性を実証している。本研究では,問題固有の記述を組み込んだコンテキスト進化型ヒューリスティックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-05T10:22:49Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Improving Existing Optimization Algorithms with LLMs [0.9668407688201361]
本稿では,Large Language Models (LLM) が既存の最適化アルゴリズムをどのように拡張するかを検討する。事前学習した知識を用いて、革新的なバリエーションと実装戦略を提案する能力を示す。以上の結果から, GPT-4oによる代替案はCMSAのエキスパート設計よりも優れていた。
論文参考訳（メタデータ） (2025-02-12T10:58:57Z)
Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design [33.58608225370497]
大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
論文参考訳（メタデータ） (2025-01-15T06:00:50Z)
Deep Insights into Automated Optimization with Large Language Models and Evolutionary Algorithms [3.833708891059351]
大きな言語モデル(LLM)と進化的アルゴリズム(EA)は、制限を克服し、最適化をより自動化するための有望な新しいアプローチを提供する。 LLMは最適化戦略の生成、洗練、解釈が可能な動的エージェントとして機能する。 EAは進化作用素を通して、複雑な解空間を効率的に探索する。
論文参考訳（メタデータ） (2024-10-28T09:04:49Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文参考訳（メタデータ） (2022-09-27T17:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。