論文の概要: Learning with Foresight: Enhancing Neural Routing Policy via Multi-Node Lookahead Prediction
- arxiv url: http://arxiv.org/abs/2605.19975v1
- Date: Tue, 19 May 2026 15:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.477586
- Title: Learning with Foresight: Enhancing Neural Routing Policy via Multi-Node Lookahead Prediction
- Title(参考訳): 予測による学習:マルチノードルックアヘッド予測によるニューラルルーティングポリシーの強化
- Authors: Xia Jiang, Yaoxin Wu, Yew-Soon Ong, Yingqian Zhang,
- Abstract要約: マルチノードルックアヘッド予測(MnLP)は、教師付き学習パラダイムを拡張して、複数の将来のノードを同時に予測する、新しいトレーニング戦略である。
筋電図の因果関係や破棄可能なMnLPモジュールをトレーニング中にのみ動作させ,コンテキストモデルによる多段階決定の予測を容易にする。
MnLPは既存のトレーニング手法より優れており、さまざまな問題サイズ、分布、実世界のベンチマークにわたるニューラルネットワークの一般化能力が改善されている。
- 参考スコア(独自算出の注目度): 53.32115440294569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural policies have shown promise in solving vehicle routing problems due to their reduced reliance on handcrafted heuristics. However, current training paradigms suffer from a fundamental limitation: they primarily focus on next-node prediction for solution construction, resulting in myopic decision-making that undermines long-horizon planning capacity. To this end, we introduce Multi-node Lookahead Prediction (MnLP), a novel training strategy that extends the supervised learning paradigm to predict multiple future nodes simultaneously. We incorporate causal and discardable MnLP modules that operate exclusively during training, facilitating models to anticipate multi-step decisions while preserving inference-time efficiency. By incorporating multi-depth auxiliary supervision into the loss function, MnLP equips neural policies with the ability of long-range contextual understanding. Experimentally, MnLP outperforms existing training methods, improving the generalization capability of neural policies across various problem sizes, distributions, and real-world benchmarks. Moreover, MnLP can be seamlessly integrated into diverse neural architectures without introducing additional inference overhead.
- Abstract(参考訳): ニューラルポリシーは、手作りのヒューリスティックへの依存を減らしたために、車両のルーティング問題を解決することを約束している。
しかし、現在の訓練パラダイムは基本的な制限に悩まされており、主にソリューション構築の次のノード予測に焦点が当てられ、結果として長期計画能力を損なう筋力的な決定が下される。
この目的のために,教師付き学習パラダイムを拡張して,複数の将来のノードを同時に予測する,新たなトレーニング戦略であるMnLP(Multi-node Lookahead Prediction)を導入する。
我々は、トレーニング中にのみ動作する因果的かつ破棄可能なMnLPモジュールを組み込み、推論時間効率を保ちながら、モデルが多段階決定を予測できるようにする。
MnLPは、多層的な補助的監視を損失関数に組み込むことで、長距離文脈理解の能力とニューラルポリシーを装備する。
MnLPは既存のトレーニング手法より優れており、さまざまな問題サイズ、分布、実世界のベンチマークにわたるニューラルネットワークの一般化能力が改善されている。
さらに、MnLPは、追加の推論オーバーヘッドを導入することなく、多様なニューラルネットワークにシームレスに統合することができる。
関連論文リスト
- TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Self-Composing Policies for Scalable Continual Reinforcement Learning [0.5461938536945723]
この研究は成長可能なモジュラーニューラルネットワークアーキテクチャを導入し、継続的な強化学習における破滅的な忘れと干渉を自然に回避する。
各モジュールの構造は、既存のポリシーと内部ポリシーを選択的に組み合わせることを可能にし、現在のタスクにおける学習プロセスを加速させる。
論文 参考訳(メタデータ) (2025-06-04T15:12:15Z) - Guided Learning: Lubricating End-to-End Modeling for Multi-stage Decision-making [7.106919452604968]
多段階意思決定におけるエンド・ツー・エンド・ラーニングを強化するためのガイドド・ラーニングを提案する。
本稿では,中間的ニューラルネットワーク層を段階的な目標に向けてトレーニングする関数である「ガイド」の概念を紹介する。
明示的な監督ラベルを欠いた意思決定シナリオに対しては、全決定の報酬'を定量化するユーティリティ関数を組み込む。
論文 参考訳(メタデータ) (2024-11-15T06:54:25Z) - LeMON: Learning to Learn Multi-Operator Networks [0.6554326244334868]
シングルオペレータ学習では、特定のオペレータを学ぶために、ディープニューラルネットワークをトレーニングする。
マルチオペレータ学習における最近の研究は、演算子埋め込み構造を使用して、複数の演算子のデータ上で単一のニューラルネットワークをトレーニングしている。
マルチオペレータ学習を用いてPDEを解くための事前学習および微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T23:20:03Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Training multi-objective/multi-task collocation physics-informed neural
network with student/teachers transfer learnings [0.0]
本稿では,事前学習ステップとネット間知識伝達アルゴリズムを用いたPINNトレーニングフレームワークを提案する。
多目的最適化アルゴリズムは、競合する制約のある物理的インフォームドニューラルネットワークの性能を向上させることができる。
論文 参考訳(メタデータ) (2021-07-24T00:43:17Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。