論文の概要: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
- arxiv url: http://arxiv.org/abs/2501.08603v1
- Date: Wed, 15 Jan 2025 06:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:37.403801
- Title: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
- Title(参考訳): LLMに基づく自動ヒューリスティック設計における総合探索のためのモンテカルロ木探索
- Authors: Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)に基づく自動設計(AHD)手法は,手作業による介入なしに高品質な言語を生成することを約束している。
木構造中のLLM生成物を保存しながら, LLMに基づく進化にMCTS(Monte Carlo Tree Search)を適用することを提案する。
- 参考スコア(独自算出の注目度): 33.58608225370497
- License:
- Abstract: Handcrafting heuristics for solving complex planning tasks (e.g., NP-hard combinatorial optimization (CO) problems) is a common practice but requires extensive domain knowledge. Recently, Large Language Model (LLM)-based automatic heuristics design (AHD) methods have shown promise in generating high-quality heuristics without manual intervention. Existing LLM-based AHD methods employ a population to maintain a fixed number of top-performing LLM-generated heuristics and introduce evolutionary computation (EC) to enhance the population iteratively. However, the population-based procedure brings greedy properties, often resulting in convergence to local optima. Instead, to more comprehensively explore the space of heuristics, we propose using Monte Carlo Tree Search (MCTS) for LLM-based heuristic evolution while preserving all LLM-generated heuristics in a tree structure. With a novel thought-alignment process and an exploration-decay technique, the proposed MCTS-AHD method delivers significantly higher-quality heuristics on various complex tasks. Our code is available at https://github.com/zz1358m/MCTS-AHD-master.
- Abstract(参考訳): 複雑な計画課題(例えばNP-hard combinatorial optimization(CO)問題)を解決するためのハンドクラフトヒューリスティックは、一般的なプラクティスであるが、広範なドメイン知識を必要とする。
近年,Large Language Model (LLM) に基づく自動ヒューリスティックス設計 (AHD) 手法は,手作業による介入なしに高品質なヒューリスティックを生成できることが示されている。
既存の LLM ベースの AHD 法では,一定の数の LLM 生成ヒューリスティックを保ち,進化的計算(EC)を導入して人口を反復的に増やしている。
しかし、人口ベースの手順は、しばしば局所最適に収束する、欲望的な性質をもたらす。
より包括的にヒューリスティックス空間を探索するため,LLMに基づくヒューリスティック進化にモンテカルロ木探索(MCTS)を用い,LLM生成ヒューリスティックスをすべて木構造に保存する。
新たな思考アライメント法と探索デカイ法により,MCTS-AHD法は様々な複雑なタスクに対して極めて高品質なヒューリスティックを実現する。
私たちのコードはhttps://github.com/zz1358m/MCTS-AHD-masterで利用可能です。
関連論文リスト
- Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization [7.755152930120769]
ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。
PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
論文 参考訳(メタデータ) (2025-02-17T04:35:01Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution [33.252158560173655]
ConceptAgentは、非構造化環境でのタスク実行用に設計された自然言語駆動のロボットプラットフォームである。
本研究では,1)不可能な行動の防止と回復を目的とした述語接地,2)自己反射を用いたLLM誘導モンテカルロ木探索の具体化など,欠点を抑えるために設計されたイノベーションを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:05:40Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。