論文の概要: Improving After-sales Service: Deep Reinforcement Learning for Dynamic Time Slot Assignment with Commitments and Customer Preferences
- arxiv url: http://arxiv.org/abs/2509.17870v1
- Date: Mon, 22 Sep 2025 15:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.451276
- Title: Improving After-sales Service: Deep Reinforcement Learning for Dynamic Time Slot Assignment with Commitments and Customer Preferences
- Title(参考訳): アフターセールサービスの改善: コミットメントと顧客嗜好を考慮した動的タイムスロットアサインメントのためのディープ強化学習
- Authors: Xiao Mao, Albert H. Schrotenboer, Guohua Wu, Willem van Jaarsveld,
- Abstract要約: ハイテクメンテナンスは、顧客とサービスエンジニアの緊密な調整を含む、アフターセールサービスの戦略的コンポーネントである。
我々は、この階層的かつシーケンシャルな意思決定問題-コミットメントと顧客優先を伴う動的時間スロット割り当て問題(DTSAP-CCP)について検討する。
1)ロールアウト実行による注意に基づく深層強化学習(ADRL-RE)と,2)シナリオベース計画手法(SBP)の2つのアプローチが提案されている。
- 参考スコア(独自算出の注目度): 5.093728036666825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Problem definition: For original equipment manufacturers (OEMs), high-tech maintenance is a strategic component in after-sales services, involving close coordination between customers and service engineers. Each customer suggests several time slots for their maintenance task, from which the OEM must select one. This decision needs to be made promptly to support customers' planning. At the end of each day, routes for service engineers are planned to fulfill the tasks scheduled for the following day. We study this hierarchical and sequential decision-making problem-the Dynamic Time Slot Assignment Problem with Commitments and Customer Preferences (DTSAP-CCP)-in this paper. Methodology/results: Two distinct approaches are proposed: 1) an attention-based deep reinforcement learning with rollout execution (ADRL-RE) and 2) a scenario-based planning approach (SBP). The ADRL-RE combines a well-trained attention-based neural network with a rollout framework for online trajectory simulation. To support the training, we develop a neural heuristic solver that provides rapid route planning solutions, enabling efficient learning in complex combinatorial settings. The SBP approach samples several scenarios to guide the time slot assignment. Numerical experiments demonstrate the superiority of ADRL-RE and the stability of SBP compared to both rule-based and rollout-based approaches. Furthermore, the strong practicality of ADRL-RE is verified in a case study of after-sales service for large medical equipment. Implications: This study provides OEMs with practical decision-support tools for dynamic maintenance scheduling, balancing customer preferences and operational efficiency. In particular, our ADRL-RE shows strong real-world potential, supporting timely and customer-aligned maintenance scheduling.
- Abstract(参考訳): 問題定義: オリジナルの機器メーカー(OEM)にとって、ハイテクメンテナンスは、顧客とサービスエンジニアの密接な調整を含む、アフターセールサービスにおける戦略的要素である。
各顧客はメンテナンスタスクにいくつかのタイムスロットを提案し、OEMはそれを選択しなければならない。
この決定は、顧客の計画を支援するために迅速に行う必要がある。
一日の終わりには、翌日に予定される業務をサービスエンジニアがこなすルートが計画されている。
本稿では,この階層的かつシーケンシャルな意思決定問題である動的時間スロット割り当て問題(DTSAP-CCP)について考察する。
方法論/再帰性: 2つの異なるアプローチが提案されている。
1)ロールアウト実行による注意に基づく深層強化学習(ADRL-RE)と
2)シナリオベースプランニングアプローチ(SBP)。
ADRL-REは、よく訓練された注意に基づくニューラルネットワークと、オンライン軌道シミュレーションのためのロールアウトフレームワークを組み合わせたものだ。
トレーニングを支援するため,我々は,複雑な組合せ環境下での効率的な学習を可能にする,高速な経路計画ソリューションを提供するニューラルヒューリスティック・ソルバを開発した。
SBPアプローチは、タイムスロット割り当てをガイドするいくつかのシナリオをサンプリングする。
ADRL-REの優位性とSBPの安定性をルールベースとロールアウトベースの両方と比較して実証した。
さらに,大規模医療機器のアフターセールサービスにおけるADRL-REの有効性を検証する。
インプリケーション:本研究は、動的メンテナンススケジューリング、顧客の好みと運用効率のバランスをとるために、OEMに実用的な意思決定支援ツールを提供する。
特に、当社のADRL-REは、タイムリーかつ顧客対応のメンテナンススケジューリングをサポートする、強力な現実世界の可能性を示しています。
関連論文リスト
- Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents [35.79575378215309]
強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
論文 参考訳(メタデータ) (2025-09-03T18:00:13Z) - A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints [0.0]
実世界の運用環境は、従来のスケジューリングアプローチの効率を低下させる追加の複雑さを導入します。
強化学習(RL)は、エージェントが適応的なスケジューリング戦略を学習できるようにするため、これらの課題に対処する可能性を秘めている。
本稿では,従来のJSSPの定式化を,主要な実世界の制約を組み込むことで拡張するモジュラーフレームワークを提案する。
JobShopLabは、研究開発と産業アプリケーションの両方のためのオープンソースのツールだ。
論文 参考訳(メタデータ) (2025-06-16T14:50:26Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Optimizing Job Shop Scheduling in the Furniture Industry: A Reinforcement Learning Approach Considering Machine Setup, Batch Variability, and Intralogistics [0.0]
本稿では,家具産業におけるDeep Reinforcement Learningの活用の可能性について考察する。
スケジューリングの精度と効率を向上させるために,より詳細な情報を提供するモデルの概念を提案する。
このモデルは、ジョブボリューム、バッファ管理、輸送時間、マシンセットアップ時間を含む、JSSPへの従来のアプローチを拡張している。
論文 参考訳(メタデータ) (2024-09-18T09:12:40Z) - Accelerate Presolve in Large-Scale Linear Programming via Reinforcement
Learning [92.31528918811007]
本稿では,P1)-(P3) を同時に扱うための簡易かつ効率的な強化学習フレームワーク,すなわち,事前解決のための強化学習(RL4Presolve)を提案する。
2つの解法と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LPの解法効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-10-18T09:51:59Z) - Flexible Job Shop Scheduling via Dual Attention Network Based
Reinforcement Learning [73.19312285906891]
フレキシブルなジョブショップスケジューリング問題(FJSP)では、複数のマシンで操作を処理でき、操作とマシンの間の複雑な関係が生じる。
近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。
本稿では,Deep機能抽出のための自己注意モデルと,スケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T01:35:48Z) - A Memetic Algorithm with Reinforcement Learning for Sociotechnical
Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。
産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文 参考訳(メタデータ) (2022-12-21T11:24:32Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。