論文の概要: PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
- arxiv url: http://arxiv.org/abs/2601.20539v1
- Date: Wed, 28 Jan 2026 12:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.925448
- Title: PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
- Title(参考訳): PathWise:自己進化型LLMによる自動ヒューリスティック設計のための世界モデルによる計画
- Authors: Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri,
- Abstract要約: 自己進化型LCM(PathWise)による世界自動ヒューリスティックデザインのための計画的計画」と呼ばれる新しいマルチエージェント推論フレームワークを提案する。
PathWiseは、検索軌跡のコンパクトでステートフルなメモリとして機能するエンテーメントグラフ上のシーケンシャルな決定過程を定式化する。
様々なCOP実験により、PathWiseはより高速に収束し、より一般化し、異なるLCMバックボーンをまたいで一般化し、より大きな問題サイズにスケールすることが示された。
- 参考スコア(独自算出の注目度): 16.59846708454225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have enabled automated heuristic design (AHD) for combinatorial optimization problems (COPs), but existing frameworks' reliance on fixed evolutionary rules and static prompt templates often leads to myopic heuristic generation, redundant evaluations, and limited reasoning about how new heuristics should be derived. We propose a novel multi-agent reasoning framework, referred to as Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs (PathWise), which formulates heuristic generation as a sequential decision process over an entailment graph serving as a compact, stateful memory of the search trajectory. This approach allows the system to carry forward past decisions and reuse or avoid derivation information across generations. A policy agent plans evolutionary actions, a world model agent generates heuristic rollouts conditioned on those actions, and critic agents provide routed reflections summarizing lessons from prior steps, shifting LLM-based AHD from trial-and-error evolution toward state-aware planning through reasoning. Experiments across diverse COPs show that PathWise converges faster to better heuristics, generalizes across different LLM backbones, and scales to larger problem sizes.
- Abstract(参考訳): 大きな言語モデル(LLM)は、組合せ最適化問題(COP)に対する自動ヒューリスティック設計(AHD)を可能にしているが、既存のフレームワークは、固定された進化規則や静的プロンプトテンプレートに依存しているため、しばしば、ミオピックヒューリスティック生成、冗長な評価、新しいヒューリスティックの導出方法に関する限定的な推論をもたらす。
本稿では,探索軌跡のコンパクトでステートフルなメモリとして機能するエンテーメントグラフ上での逐次決定プロセスとしてヒューリスティック生成を定式化する,自己進化 LLM (PathWises) による自動ヒューリスティック設計のための計画的世界モデルと呼ばれる新しいマルチエージェント推論フレームワークを提案する。
このアプローチにより、システムは過去の決定を実行し、世代間での派生情報の再利用や回避が可能になる。
政策エージェントは、進化的なアクションを計画し、世界モデルエージェントはこれらのアクションに条件付けられたヒューリスティックなロールアウトを生成し、批評家エージェントは、LCMベースのAHDを試行錯誤の進化から、推論を通じて国家意識の計画に移行する、事前ステップから教訓を要約したルート化されたリフレクションを提供する。
多様なCOPによる実験により、PathWiseはより優れたヒューリスティックスに早く収束し、異なるLCMバックボーンをまたいで一般化し、より大きな問題サイズにスケールすることが示された。
関連論文リスト
- Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。