論文の概要: Refining Hybrid Genetic Search for CVRP via Reinforcement Learning-Finetuned LLM
- arxiv url: http://arxiv.org/abs/2510.11121v1
- Date: Mon, 13 Oct 2025 08:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.259429
- Title: Refining Hybrid Genetic Search for CVRP via Reinforcement Learning-Finetuned LLM
- Title(参考訳): 強化学習型LLMによるCVRPのハイブリッド遺伝的検索
- Authors: Rongjie Zhu, Cong Zhang, Zhiguang Cao,
- Abstract要約: 大型言語モデル (LLM) は、車両ルーティング問題 (VRP) の自動化デザイナーとして、ますます使われている。
この作業は、小さくて専門的なLLMが微調整された場合、先進的な解法の中で専門家が作り上げたものを超えるコンポーネントを生成できることを実証することによって、パラダイムに挑戦する。
高速クロスオーバー演算子を生成するために,小型LLMを微調整する新しい強化学習フレームワークRFTHGSを提案する。
- 参考スコア(独自算出の注目度): 32.938753667649074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While large language models (LLMs) are increasingly used as automated heuristic designers for vehicle routing problems (VRPs), current state-of-the-art methods predominantly rely on prompting massive, general-purpose models like GPT-4. This work challenges that paradigm by demonstrating that a smaller, specialized LLM, when meticulously fine-tuned, can generate components that surpass expert-crafted heuristics within advanced solvers. We propose RFTHGS, a novel Reinforcement learning (RL) framework for Fine-Tuning a small LLM to generate high-performance crossover operators for the Hybrid Genetic Search (HGS) solver, applied to the Capacitated VRP (CVRP). Our method employs a multi-tiered, curriculum-based reward function that progressively guides the LLM to master generating first compilable, then executable, and finally, superior-performing operators that exceed human expert designs. This is coupled with an operator caching mechanism that discourages plagiarism and promotes diversity during training. Comprehensive experiments show that our fine-tuned LLM produces crossover operators which significantly outperform the expert-designed ones in HGS. The performance advantage remains consistent, generalizing from small-scale instances to large-scale problems with up to 1000 nodes. Furthermore, RFTHGS exceeds the performance of leading neuro-combinatorial baselines, prompt-based methods, and commercial LLMs such as GPT-4o and GPT-4o-mini.
- Abstract(参考訳): 大型言語モデル(LLM)は、車両ルーティング問題(VRP)の自動化ヒューリスティックデザイナとしてますます使われているが、現在の最先端の手法は、GPT-4のような大規模で汎用的なモデルに大きく依存している。
この研究は、小さくて専門的なLSMが微調整された場合、先進的な解法の中で専門家によるヒューリスティックを超越したコンポーネントを生成できることを実証することによって、パラダイムに挑戦する。
本稿では,Hybrid Genetic Search (HGS)ソルバのための高性能クロスオーバー演算子を生成するために,小型LCMを微調整する新しい強化学習(RL)フレームワークRFTHGSを提案する。
提案手法では,LLMを段階的に指導し,コンパイル可能で,実行可能で,最終的には人間の設計を超える優れた演算子を生成する多階層型カリキュラムベースの報酬関数を用いる。
これは、プラジャリズムを回避し、トレーニング中に多様性を促進するオペレータキャッシング機構と結合される。
総合的な実験により、我々の微調整 LLM は、HGS のエキスパート設計の演算子よりも大幅に優れるクロスオーバー演算子を生成することが示された。
パフォーマンス上の優位性は相変わらず維持され、1000ノードまでの大規模インスタンスから大規模問題へと一般化される。
さらに, RFTHGS は, GPT-4o や GPT-4o-mini などの商業用 LLM など, 主要な神経組換えベースライン, プロンプトベース法, および商業用 LLM の性能を上回っている。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Accelerating Reinforcement Learning Algorithms Convergence using Pre-trained Large Language Models as Tutors With Advice Reusing [5.414308305392762]
大規模言語モデル (LLM) は、強化学習 (RL) アルゴリズムを用いた学生-教師アーキテクチャの家庭教師である。
以上の結果から,LLMのチュータリングはRLの収束を著しく促進し,最適性能の維持を図っている。
アドバイス再利用機構は、トレーニング期間をさらに改善するだけでなく、より安定した収束ダイナミクスをもたらす。
論文 参考訳(メタデータ) (2025-09-10T07:08:04Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。