Fugu-MT 論文翻訳(概要): Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

論文の概要: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

arxiv url: http://arxiv.org/abs/2501.08603v2
Date: Thu, 16 Jan 2025 15:57:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:31.914658
Title: Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
Title（参考訳）: LLMに基づく自動ヒューリスティック設計における総合探索のためのモンテカルロ木探索
Authors: Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi,
Abstract要約: 大規模言語モデル(LLM)に基づく自動設計(AHD)手法は,手作業による介入なしに高品質な言語を生成することを約束している。木構造中のLLM生成物を保存しながら, LLMに基づく進化にMCTS(Monte Carlo Tree Search)を適用することを提案する。
参考スコア（独自算出の注目度）: 33.58608225370497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Handcrafting heuristics for solving complex planning tasks (e.g., NP-hard combinatorial optimization (CO) problems) is a common practice but requires extensive domain knowledge. Recently, Large Language Model (LLM)-based automatic heuristics design (AHD) methods have shown promise in generating high-quality heuristics without manual intervention. Existing LLM-based AHD methods employ a population to maintain a fixed number of top-performing LLM-generated heuristics and introduce evolutionary computation (EC) to enhance the population iteratively. However, the population-based procedure brings greedy properties, often resulting in convergence to local optima. Instead, to more comprehensively explore the space of heuristics, we propose using Monte Carlo Tree Search (MCTS) for LLM-based heuristic evolution while preserving all LLM-generated heuristics in a tree structure. With a novel thought-alignment process and an exploration-decay technique, the proposed MCTS-AHD method delivers significantly higher-quality heuristics on various complex tasks. Our code is available at https://github.com/zz1358m/MCTS-AHD-master.
Abstract（参考訳）: 複雑な計画課題(例えばNP-hard combinatorial optimization(CO)問題)を解決するためのハンドクラフトヒューリスティックは、一般的なプラクティスであるが、広範なドメイン知識を必要とする。近年,Large Language Model (LLM) に基づく自動ヒューリスティックス設計 (AHD) 手法は,手作業による介入なしに高品質なヒューリスティックを生成できることが示されている。既存の LLM ベースの AHD 法では,一定の数の LLM 生成ヒューリスティックを保ち,進化的計算(EC)を導入して人口を反復的に増やしている。しかし、人口ベースの手順は、しばしば局所最適に収束する、欲望的な性質をもたらす。より包括的にヒューリスティックス空間を探索するため,LLMに基づくヒューリスティック進化にモンテカルロ木探索(MCTS)を用い,LLM生成ヒューリスティックスをすべて木構造に保存する。新たな思考アライメント法と探索デカイ法により,MCTS-AHD法は様々な複雑なタスクに対して極めて高品質なヒューリスティックを実現する。私たちのコードはhttps://github.com/zz1358m/MCTS-AHD-masterで利用可能です。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization [7.755152930120769]
ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。 PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
論文参考訳（メタデータ） (2025-02-17T04:35:01Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳（メタデータ） (2024-06-11T16:01:07Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model [22.64392837434924]
EoHは自然言語における思考の考えを表しており、これは「思考」と呼ばれている。それらはLarge Language Models (LLM) によって実行可能なコードに変換される。 EoHは、オンラインのビンパッキング問題に対して、広く使われている人手作りのベースラインアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2024-01-04T04:11:59Z)
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。 LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文参考訳（メタデータ） (2023-09-29T12:20:19Z)
Learning to Schedule Heuristics for the Simultaneous Stochastic Optimization of Mining Complexes [2.538209532048867]
提案したL2P(Learning-to-perturb)ハイパーヒューリスティックは,マルチ隣り合うシミュレートアニールアルゴリズムである。 L2Pは、効率、堅牢性、一般化能力に重点を置いて、いくつかの実世界の鉱業施設で試験されている。その結果,反復回数を30～50%削減し,計算時間を30～45%削減した。
論文参考訳（メタデータ） (2022-02-25T18:20:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。