Fugu-MT 論文翻訳(概要): Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

論文の概要: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

arxiv url: http://arxiv.org/abs/2501.08603v3
Date: Fri, 31 Jan 2025 05:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.610192
Title: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
Title（参考訳）: LLMに基づく自動ヒューリスティック設計における総合探索のためのモンテカルロ木探索
Authors: Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi,
Abstract要約: 大規模言語モデル (LLM) に基づく自動設計 (AHD) 手法は、手作業による介入なしに高品質な設計を作成することを約束している。本稿では,進化進化にモンテカルロ木探索(MCTS)を用いることを提案する。
参考スコア（独自算出の注目度）: 33.58608225370497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Handcrafting heuristics for solving complex optimization tasks (e.g., route planning and task allocation) is a common practice but requires extensive domain knowledge. Recently, Large Language Model (LLM)-based automatic heuristic design (AHD) methods have shown promise in generating high-quality heuristics without manual interventions. Existing LLM-based AHD methods employ a population to maintain a fixed number of top-performing LLM-generated heuristics and introduce evolutionary computation (EC) to iteratively enhance the population. However, these population-based procedures cannot fully develop the potential of each heuristic and are prone to converge into local optima. To more comprehensively explore the space of heuristics, this paper proposes to use Monte Carlo Tree Search (MCTS) for LLM-based heuristic evolution. The proposed MCTS-AHD method organizes all LLM-generated heuristics in a tree structure and can better develop the potential of temporarily underperforming heuristics. In experiments, MCTS-AHD delivers significantly higher-quality heuristics on various complex tasks. Our code is available.
Abstract（参考訳）: 複雑な最適化タスク(ルート計画やタスク割り当てなど)を解決するためのハンドクラフトヒューリスティックは、一般的なプラクティスであるが、広範なドメイン知識が必要である。近年,Large Language Model (LLM) に基づく自動ヒューリスティック設計 (AHD) 手法は,手作業による介入なしに高品質なヒューリスティックを生成することを約束している。既存の LLM ベースの AHD 法では,一定の数の LLM 生成ヒューリスティックを保ち,人口を反復的に増加させるために進化計算(EC)を導入している。しかし、これらの集団に基づく手順は、各ヒューリスティックのポテンシャルを完全に発展させることができず、局所最適に収束する傾向にある。より包括的にヒューリスティックスの空間を探索するため,本論文ではモンテカルロ木探索(MCTS)をLLMに基づくヒューリスティック進化に活用することを提案する。提案したMCTS-AHD法は,LLM生成したすべてのヒューリスティックを木構造に整理し,一時的に過小評価されるヒューリスティックの可能性を向上する。実験では、MCTS-AHDは様々な複雑なタスクに対して非常に高品質なヒューリスティックを提供する。私たちのコードは利用可能です。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization [7.755152930120769]
ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。 PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
論文参考訳（メタデータ） (2025-02-17T04:35:01Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳（メタデータ） (2024-06-11T16:01:07Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model [22.64392837434924]
EoHは自然言語における思考の考えを表しており、これは「思考」と呼ばれている。それらはLarge Language Models (LLM) によって実行可能なコードに変換される。 EoHは、オンラインのビンパッキング問題に対して、広く使われている人手作りのベースラインアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2024-01-04T04:11:59Z)
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。 LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文参考訳（メタデータ） (2023-09-29T12:20:19Z)
Learning to Schedule Heuristics for the Simultaneous Stochastic Optimization of Mining Complexes [2.538209532048867]
提案したL2P(Learning-to-perturb)ハイパーヒューリスティックは,マルチ隣り合うシミュレートアニールアルゴリズムである。 L2Pは、効率、堅牢性、一般化能力に重点を置いて、いくつかの実世界の鉱業施設で試験されている。その結果,反復回数を30～50%削減し,計算時間を30～45%削減した。
論文参考訳（メタデータ） (2022-02-25T18:20:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。