論文の概要: Multi-Decoder Attention Model with Embedding Glimpse for Solving Vehicle
Routing Problems
- arxiv url: http://arxiv.org/abs/2012.10638v1
- Date: Sat, 19 Dec 2020 09:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 16:06:12.655804
- Title: Multi-Decoder Attention Model with Embedding Glimpse for Solving Vehicle
Routing Problems
- Title(参考訳): マルチデコーダアテンションモデルによる車両経路問題の可視化
- Authors: Liang Xin, Wen Song, Zhiguang Cao, Jie Zhang
- Abstract要約: 本稿では,車両経路問題に対する構造学習のための新しい深層強化学習手法を提案する。
特に、マルチデコーダアテンションモデル(MDAM)を提案し、複数の多様なポリシーを訓練します。
MDAMの多様性を完全に活用するために、カスタマイズされたビームサーチ戦略が設計されている。
- 参考スコア(独自算出の注目度): 14.605192361813454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel deep reinforcement learning method to learn construction
heuristics for vehicle routing problems. In specific, we propose a
Multi-Decoder Attention Model (MDAM) to train multiple diverse policies, which
effectively increases the chance of finding good solutions compared with
existing methods that train only one policy. A customized beam search strategy
is designed to fully exploit the diversity of MDAM. In addition, we propose an
Embedding Glimpse layer in MDAM based on the recursive nature of construction,
which can improve the quality of each policy by providing more informative
embeddings. Extensive experiments on six different routing problems show that
our method significantly outperforms the state-of-the-art deep learning based
models.
- Abstract(参考訳): 車両経路問題に対する建設ヒューリスティックスを学習するための新しい強化学習手法を提案する。
具体的には,多種多様なポリシーを学習するためのMDAM(Multi-Decoder Attention Model)を提案する。
MDAMの多様性を完全に活用するために、カスタマイズされたビームサーチ戦略が設計されている。
また,提案手法では,mdamにおける再帰的構造に基づく埋め込みの可視化層を提案し,より情報的な埋め込みを提供することで,各ポリシーの質を向上させることができる。
6種類の経路問題に対する広範囲な実験により,本手法が最先端のディープラーニングモデルを大きく上回っていることが示された。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement
Learning with Dynamic Depth Routing [26.44273671379482]
マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
論文 参考訳(メタデータ) (2023-12-22T06:51:30Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - A review of approaches to modeling applied vehicle routing problems [77.34726150561087]
車両経路問題のモデル化手法について概説する。
モデリング手法を評価するためのいくつかの基準を定式化する。
我々はVRPドメインのモデリング分野における今後の研究の道について論じる。
論文 参考訳(メタデータ) (2021-05-23T14:50:14Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z) - Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-13T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。