論文の概要: A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows
- arxiv url: http://arxiv.org/abs/2505.06178v1
- Date: Fri, 09 May 2025 16:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.34426
- Title: A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows
- Title(参考訳): 時間Windowsを用いた容量化車両ルーティング問題に対する大規模言語モデル強化Q-ラーニング
- Authors: Linjiang Cao, Maonan Wang, Xi Xiong,
- Abstract要約: 本稿では、CVRPTW(Capacitated Vehicle Routing Problem with Time Windows)に対処する新しいQラーニングフレームワークを提案する。
我々のフレームワークは従来のQ-ラーニングに比べて平均7.3%のコスト削減を実現しており、収束に必要なトレーニングステップは少ない。
- 参考スコア(独自算出の注目度): 3.0518581575184225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Capacitated Vehicle Routing Problem with Time Windows (CVRPTW) is a classic NP-hard combinatorial optimization problem widely applied in logistics distribution and transportation management. Its complexity stems from the constraints of vehicle capacity and time windows, which pose significant challenges to traditional approaches. Advances in Large Language Models (LLMs) provide new possibilities for finding approximate solutions to CVRPTW. This paper proposes a novel LLM-enhanced Q-learning framework to address the CVRPTW with real-time emergency constraints. Our solution introduces an adaptive two-phase training mechanism that transitions from the LLM-guided exploration phase to the autonomous optimization phase of Q-network. To ensure reliability, we design a three-tier self-correction mechanism based on the Chain-of-Thought (CoT) for LLMs: syntactic validation, semantic verification, and physical constraint enforcement. In addition, we also prioritized replay of the experience generated by LLMs to amplify the regulatory role of LLMs in the architecture. Experimental results demonstrate that our framework achieves a 7.3\% average reduction in cost compared to traditional Q-learning, with fewer training steps required for convergence.
- Abstract(参考訳): Capacitated Vehicle Routing Problem with Time Windows (CVRPTW) は、古典的なNPハード組合せ最適化問題である。
その複雑さは、車両の容量と時間窓の制約に起因しており、従来のアプローチに重大な課題をもたらしている。
LLM(Large Language Models)の進歩は、CVRPTWの近似解を見つける新しい可能性を提供する。
本稿では,CVRPTWをリアルタイムな緊急時制約で処理する新しいLLM拡張Qラーニングフレームワークを提案する。
本稿では,LLM誘導探査段階からQネットワークの自律最適化段階へ移行する適応型2相学習機構を提案する。
信頼性を確保するため,LLMのためのチェイン・オブ・ソート(CoT)に基づく3層自己補正機構を設計する。
また,アーキテクチャにおけるLLMの規制的役割を増幅するために,LLMが生み出す経験の再生を優先した。
実験の結果,本フレームワークは従来のQ-ラーニングに比べて平均7.3倍のコスト削減を実現しており,収束に必要なトレーニングステップは少ないことがわかった。
関連論文リスト
- CoLLMLight: Cooperative Large Language Model Agents for Network-Wide Traffic Signal Control [7.0964925117958515]
交通信号制御(TSC)は,交通流の最適化と混雑緩和によって都市交通管理において重要な役割を担っている。
既存のアプローチでは、エージェント間の調整に必要な問題に対処できない。
TSCのための協調LLMエージェントフレームワークであるCoLLMLightを提案する。
論文 参考訳(メタデータ) (2025-03-14T15:40:39Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning [30.75025062952915]
AI対応のIoT of Vehicles(IoV)の急速な成長は、効率的な機械学習(ML)ソリューションを求めている。
車両はしばしば複数のMLタスクを同時に実行する必要がある。
本稿では,グローバルトレーニング遅延の最小化を目的とした動的VEC-HFLにおけるマルチモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-17T03:15:03Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。
しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。
これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-16T11:56:50Z) - LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments [3.7788636451616697]
本研究は,大規模言語モデルを交通信号制御システムに統合する革新的なアプローチを導入する。
LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークが提案されている。
シミュレーションの結果から,交通環境の多種性に適応するシステムの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T08:41:55Z) - Training Neural Networks from Scratch with Parallel Low-Rank Adapters [46.764982726136054]
計算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムである LoRA-the-Explorer (LTE) を導入する。
我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:55:13Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。