論文の概要: ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback
- arxiv url: http://arxiv.org/abs/2604.04940v1
- Date: Thu, 05 Mar 2026 04:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.600922
- Title: ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback
- Title(参考訳): ReVEL: 構造化性能フィードバックによる多軸反射型LLM誘導ヒューリスティック進化
- Authors: Cuong Van Duc, Minh Nguyen Dinh Tuan, Tam Vu Duc, Tung Vu Duy, Son Nguyen Van, Hanh Nguyen Thi, Binh Huynh Thi Thanh,
- Abstract要約: ReVEL: 構造化性能フィードバックによるマルチTurn反射型LLM-Huristic Evolutionを提案する。
ReVELの中核は、(i)パフォーマンスに目立ったグループ化と(ii)マルチターンフィードバック駆動リフレクションの2つのメカニズムにある。
本結果は,自動設計の原則的パラダイムとして,構造化グループを用いたマルチターン推論に注目した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing effective heuristics for NP-hard combinatorial optimization problems remains a challenging and expertise-intensive task. Existing applications of large language models (LLMs) primarily rely on one-shot code synthesis, yielding brittle heuristics that underutilize the models' capacity for iterative reasoning. We propose ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback, a hybrid framework that embeds LLMs as interactive, multi-turn reasoners within an evolutionary algorithm (EA). The core of ReVEL lies in two mechanisms: (i) performance-profile grouping, which clusters candidate heuristics into behaviorally coherent groups to provide compact and informative feedback to the LLM; and (ii) multi-turn, feedback-driven reflection, through which the LLM analyzes group-level behaviors and generates targeted heuristic refinements. These refinements are selectively integrated and validated by an EA-based meta-controller that adaptively balances exploration and exploitation. Experiments on standard combinatorial optimization benchmarks show that ReVEL consistently produces heuristics that are more robust and diverse, achieving statistically significant improvements over strong baselines. Our results highlight multi-turn reasoning with structured grouping as a principled paradigm for automated heuristic design.
- Abstract(参考訳): NPハード組合せ最適化問題に対する効果的なヒューリスティックを設計することは、依然として困難かつ専門的な課題である。
既存の大規模言語モデル(LLM)の応用は主にワンショットのコード合成に依存しており、反復的推論のためにモデルの能力を損なう脆いヒューリスティックをもたらす。
進化的アルゴリズム (EA) 内に LLM を対話的・多ターン推論器として組み込んだハイブリッドフレームワークである構造化性能フィードバックを用いたマルチTurn Reflective LLM-Guided Heuristic Evolutionを提案する。
ReVELの中核は2つのメカニズムにある。
i) LLMにコンパクトで情報的フィードバックを提供するために,行動整合性グループにヒューリスティックな候補をクラスタリングする,パフォーマンスに目立ったグループ
(II)マルチターン・フィードバック駆動リフレクションにより,LLMは群レベルの振る舞いを解析し,対象としたヒューリスティックリフレクションを生成する。
これらの改良はEAベースのメタコントローラによって選択的に統合され、検証され、探索と搾取の適応的なバランスをとる。
標準組合せ最適化ベンチマークの実験では、ReVELはより堅牢で多様なヒューリスティックを一貫して生成し、強いベースラインよりも統計的に有意な改善を達成している。
本研究は,自動ヒューリスティック設計の原理的パラダイムとして,構造化グループを用いたマルチターン推論を強調した。
関連論文リスト
- Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Pareto-Grid-Guided Large Language Models for Fast and High-Quality Heuristics Design in Multi-Objective Combinatorial Optimization [8.950269044886621]
多目的最適化問題(MOCOP)は、矛盾する目的の同時最適化を必要とする実用的応用においてしばしば発生する。
LLM(MPaGE)のPareto-Grid-Guided EvolutionによるMOCOPのマルチヒューリスティックスについて紹介する。
MPaGE は LLM を用いて、変異の間、意味的に異なる論理構造を優先順位付けし、多様性を促進し、集団内の冗長性を緩和する。
論文 参考訳(メタデータ) (2025-07-28T15:26:43Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Can Large Language Models Be Trusted as Evolutionary Optimizers for Network-Structured Combinatorial Problems? [8.431866560904753]
大規模言語モデル(LLM)は、言語理解とさまざまなドメイン間の推論において強力な能力を示している。
本研究では,問題構造に係わるLLMの能力を評価するための体系的枠組みを提案する。
我々は、よく使われる進化的手法(EVO)を採用し、LLM演算子の出力忠実度を厳格に評価する包括的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。