論文の概要: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
- arxiv url: http://arxiv.org/abs/2501.08603v3
- Date: Fri, 31 Jan 2025 05:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:10.515012
- Title: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
- Title(参考訳): LLMに基づく自動ヒューリスティック設計における総合探索のためのモンテカルロ木探索
- Authors: Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi,
- Abstract要約: 大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。
本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
- 参考スコア(独自算出の注目度): 33.58608225370497
- License:
- Abstract: Handcrafting heuristics for solving complex optimization tasks (e.g., route planning and task allocation) is a common practice but requires extensive domain knowledge. Recently, Large Language Model (LLM)-based automatic heuristic design (AHD) methods have shown promise in generating high-quality heuristics without manual interventions. Existing LLM-based AHD methods employ a population to maintain a fixed number of top-performing LLM-generated heuristics and introduce evolutionary computation (EC) to iteratively enhance the population. However, these population-based procedures cannot fully develop the potential of each heuristic and are prone to converge into local optima. To more comprehensively explore the space of heuristics, this paper proposes to use Monte Carlo Tree Search (MCTS) for LLM-based heuristic evolution. The proposed MCTS-AHD method organizes all LLM-generated heuristics in a tree structure and can better develop the potential of temporarily underperforming heuristics. In experiments, MCTS-AHD delivers significantly higher-quality heuristics on various complex tasks. Our code is available.
- Abstract(参考訳): 複雑な最適化タスク(ルート計画やタスク割り当てなど)を解決するためのハンドクラフトヒューリスティックは、一般的なプラクティスであるが、広範なドメイン知識が必要である。
近年,Large Language Model (LLM) に基づく自動ヒューリスティック設計 (AHD) 手法は,手作業による介入なしに高品質なヒューリスティックを生成することを約束している。
既存の LLM ベースの AHD 法では,一定の数の LLM 生成ヒューリスティックを保ち,人口を反復的に増加させるために進化計算(EC)を導入している。
しかし、これらの集団に基づく手順は、各ヒューリスティックのポテンシャルを完全に発展させることができず、局所最適に収束する傾向にある。
より包括的にヒューリスティックスの空間を探索するため,本論文ではモンテカルロ木探索(MCTS)をLLMに基づくヒューリスティック進化に活用することを提案する。
提案したMCTS-AHD法は,LLM生成したすべてのヒューリスティックを木構造に整理し,一時的に過小評価されるヒューリスティックの可能性を向上する。
実験では、MCTS-AHDは様々な複雑なタスクに対して非常に高品質なヒューリスティックを提供する。
私たちのコードは利用可能です。
関連論文リスト
- Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization [7.755152930120769]
ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。
PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
論文 参考訳(メタデータ) (2025-02-17T04:35:01Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution [33.252158560173655]
ConceptAgentは、非構造化環境でのタスク実行用に設計された自然言語駆動のロボットプラットフォームである。
本研究では,1)不可能な行動の防止と回復を目的とした述語接地,2)自己反射を用いたLLM誘導モンテカルロ木探索の具体化など,欠点を抑えるために設計されたイノベーションを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:05:40Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。