論文の概要: PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
- arxiv url: http://arxiv.org/abs/2601.20539v2
- Date: Thu, 29 Jan 2026 13:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:20.062806
- Title: PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
- Title(参考訳): PathWise:自己進化型LLMによる自動ヒューリスティック設計のための世界モデルによる計画
- Authors: Oguzhan Gungordu, Siheng Xiong, Faramarz Fekri,
- Abstract要約: 自己進化型LCM(PathWise)による世界自動ヒューリスティックデザインのための計画的計画」と呼ばれる新しいマルチエージェント推論フレームワークを提案する。
PathWiseは、検索軌跡のコンパクトでステートフルなメモリとして機能するエンテーメントグラフ上のシーケンシャルな決定過程を定式化する。
様々なCOP実験により、PathWiseはより高速に収束し、より一般化し、異なるLCMバックボーンをまたいで一般化し、より大きな問題サイズにスケールすることが示された。
- 参考スコア(独自算出の注目度): 16.59846708454225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have enabled automated heuristic design (AHD) for combinatorial optimization problems (COPs), but existing frameworks' reliance on fixed evolutionary rules and static prompt templates often leads to myopic heuristic generation, redundant evaluations, and limited reasoning about how new heuristics should be derived. We propose a novel multi-agent reasoning framework, referred to as Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs (PathWise), which formulates heuristic generation as a sequential decision process over an entailment graph serving as a compact, stateful memory of the search trajectory. This approach allows the system to carry forward past decisions and reuse or avoid derivation information across generations. A policy agent plans evolutionary actions, a world model agent generates heuristic rollouts conditioned on those actions, and critic agents provide routed reflections summarizing lessons from prior steps, shifting LLM-based AHD from trial-and-error evolution toward state-aware planning through reasoning. Experiments across diverse COPs show that PathWise converges faster to better heuristics, generalizes across different LLM backbones, and scales to larger problem sizes.
- Abstract(参考訳): 大きな言語モデル(LLM)は、組合せ最適化問題(COP)に対する自動ヒューリスティック設計(AHD)を可能にしているが、既存のフレームワークは、固定された進化規則や静的プロンプトテンプレートに依存しているため、しばしば、ミオピックヒューリスティック生成、冗長な評価、新しいヒューリスティックの導出方法に関する限定的な推論をもたらす。
本稿では,探索軌跡のコンパクトでステートフルなメモリとして機能するエンテーメントグラフ上での逐次決定プロセスとしてヒューリスティック生成を定式化する,自己進化 LLM (PathWises) による自動ヒューリスティック設計のための計画的世界モデルと呼ばれる新しいマルチエージェント推論フレームワークを提案する。
このアプローチにより、システムは過去の決定を実行し、世代間での派生情報の再利用や回避が可能になる。
政策エージェントは、進化的なアクションを計画し、世界モデルエージェントはこれらのアクションに条件付けられたヒューリスティックなロールアウトを生成し、批評家エージェントは、LCMベースのAHDを試行錯誤の進化から、推論を通じて国家意識の計画に移行する、事前ステップから教訓を要約したルート化されたリフレクションを提供する。
多様なCOPによる実験により、PathWiseはより優れたヒューリスティックスに早く収束し、異なるLCMバックボーンをまたいで一般化し、より大きな問題サイズにスケールすることが示された。
関連論文リスト
- Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.209787026732972]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。
この調査はエージェントAI構築におけるパラダイムシフトをトレースする。
それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (2025-10-19T05:23:43Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs [1.090218572228214]
本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
論文 参考訳(メタデータ) (2025-08-20T09:36:53Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。