論文の概要: Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems
- arxiv url: http://arxiv.org/abs/2511.17435v1
- Date: Fri, 21 Nov 2025 17:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.144439
- Title: Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems
- Title(参考訳): 多要素動的ピックアップ・デリバリ問題に対するSeq-to-Seq強化学習のためのマルチエージェントポインタ変換器
- Authors: Zengyu Zou, Jingyuan Wang, Yixuan Huang, Junjie Wu,
- Abstract要約: 本稿では,シーケンス・ツー・シーケンスに基づくエンドツーエンドの集中型意思決定フレームワークであるMulti-Agent Pointer Transformer(MAPT)を提案する。
MAPTは、古典的な操作研究手法と比較して、性能と計算時間の優位性という点で、既存のベースライン手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 17.3780399150554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the cooperative Multi-Vehicle Dynamic Pickup and Delivery Problem with Stochastic Requests (MVDPDPSR) and proposes an end-to-end centralized decision-making framework based on sequence-to-sequence, named Multi-Agent Pointer Transformer (MAPT). MVDPDPSR is an extension of the vehicle routing problem and a spatio-temporal system optimization problem, widely applied in scenarios such as on-demand delivery. Classical operations research methods face bottlenecks in computational complexity and time efficiency when handling large-scale dynamic problems. Although existing reinforcement learning methods have achieved some progress, they still encounter several challenges: 1) Independent decoding across multiple vehicles fails to model joint action distributions; 2) The feature extraction network struggles to capture inter-entity relationships; 3) The joint action space is exponentially large. To address these issues, we designed the MAPT framework, which employs a Transformer Encoder to extract entity representations, combines a Transformer Decoder with a Pointer Network to generate joint action sequences in an AutoRegressive manner, and introduces a Relation-Aware Attention module to capture inter-entity relationships. Additionally, we guide the model's decision-making using informative priors to facilitate effective exploration. Experiments on 8 datasets demonstrate that MAPT significantly outperforms existing baseline methods in terms of performance and exhibits substantial computational time advantages compared to classical operations research methods.
- Abstract(参考訳): 本稿では,Multi-Vehicle Dynamic Pickup and Delivery Problem with Stochastic Requests (MVDPDPSR) に対処し,シーケンス・ツー・シーケンスに基づくエンドツーエンドの集中型意思決定フレームワークであるMulti-Agent Pointer Transformer (MAPT)を提案する。
MVDPDPSRは車両ルーティング問題の拡張であり、オンデマンド配信などのシナリオで広く適用されている時空間システム最適化問題である。
古典的操作研究手法は、大規模動的問題を扱う際の計算複雑性と時間効率のボトルネックに直面している。
既存の強化学習法はいくつかの進歩を遂げているが、それでもいくつかの課題に直面している。
1) 複数の車両にまたがる独立復号化は,共同行動分布のモデル化に失敗する。
2 特徴抽出ネットワークは、関係性間の関係をつかむのに苦労する。
3) 共同作用空間は指数関数的に大きい。
これらの問題に対処するために、Transformer Encoderを用いてエンティティ表現を抽出し、Transformer DecoderとPointer Networkを組み合わせ、AutoRegressive方式で共同アクションシーケンスを生成するMAPTフレームワークを設計し、相互関係をキャプチャするRelation-Aware Attentionモジュールを導入した。
さらに、効果的な探索を容易にするために、情報的事前情報を用いたモデルの意思決定を指導する。
8つのデータセットに対する実験により、MAPTは既存のベースライン法よりも性能的に優れており、古典的な演算研究法に比べて計算時間のアドバンテージがかなり高いことが示された。
関連論文リスト
- MPFormer: Adaptive Framework for Industrial Multi-Task Personalized Sequential Retriever [22.507173183511153]
MPFormerは、産業レコメンデーションシステムのための動的マルチタスクトランスフォーマーフレームワークである。
Kuaishouのショートビデオレコメンデーションシステムにうまく統合され、毎日4億人のアクティブユーザーが利用できる。
論文 参考訳(メタデータ) (2025-08-28T03:53:55Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。