Fugu-MT 論文翻訳(概要): Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control

論文の概要: Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control

arxiv url: http://arxiv.org/abs/2508.20784v1
Date: Thu, 28 Aug 2025 13:47:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-29 18:12:02.429169
Title: Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control
Title（参考訳）: バスフリート制御のためのシングルエージェントロバスト深部強化学習
Authors: Yifan Zhang,
Abstract要約: バスの群れは交通と乗客の需要のために都市交通にとって困難である。バス保持制御のための単エージェント強化学習フレームワークを提案する。修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
参考スコア（独自算出の注目度）: 9.910562011343009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bus bunching remains a challenge for urban transit due to stochastic traffic and passenger demand. Traditional solutions rely on multi-agent reinforcement learning (MARL) in loop-line settings, which overlook realistic operations characterized by heterogeneous routes, timetables, fluctuating demand, and varying fleet sizes. We propose a novel single-agent reinforcement learning (RL) framework for bus holding control that avoids the data imbalance and convergence issues of MARL under near-realistic simulation. A bidirectional timetabled network with dynamic passenger demand is constructed. The key innovation is reformulating the multi-agent problem into a single-agent one by augmenting the state space with categorical identifiers (vehicle ID, station ID, time period) in addition to numerical features (headway, occupancy, velocity). This high-dimensional encoding enables single-agent policies to capture inter-agent dependencies, analogous to projecting non-separable inputs into a higher-dimensional space. We further design a structured reward function aligned with operational goals: instead of exponential penalties on headway deviations, a ridge-shaped reward balances uniform headways and schedule adherence. Experiments show that our modified soft actor-critic (SAC) achieves more stable and superior performance than benchmarks, including MADDPG (e.g., -430k vs. -530k under stochastic conditions). These results demonstrate that single-agent deep RL, when enhanced with categorical structuring and schedule-aware rewards, can effectively manage bus holding in non-loop, real-world contexts. This paradigm offers a robust, scalable alternative to MARL frameworks, particularly where agent-specific experiences are imbalanced.
Abstract（参考訳）: バスの群れは、交通渋滞と乗客の需要のため、都市交通にとって依然として課題である。従来のソリューションはループライン設定におけるマルチエージェント強化学習(MARL)に依存しており、これは異種ルート、時刻表、変動する需要、および様々な艦隊サイズによって特徴づけられる現実的な操作を見落としている。本稿では,MARLのデータ不均衡や収束問題を回避するため,バス保持制御のための新しい単エージェント強化学習(RL)フレームワークを提案する。動的旅客需要を伴う双方向のタイムテーブルネットワークを構築した。重要な革新は、数値的特徴(先頭、占有、速度)に加えて、カテゴリー識別子(車両ID、ステーションID、時刻)で状態空間を拡大することで、マルチエージェント問題を単一エージェントに再構成することである。この高次元符号化により、より高次元空間に非分離的な入力を投影するのと同様に、単一エージェントポリシーがエージェント間の依存関係をキャプチャできる。さらに,ヘッドウェイ偏差に対する指数的な罰則の代わりに,リッジ形状の報酬関数はヘッドウェイとスケジュール順守を均一にバランスする。実験の結果,MADDPG (例えば, -430k vs. -530k) を含むベンチマークよりも, より安定かつ優れた性能が得られた。これらの結果から, 単一エージェントの深層RLは, 階層構造とスケジュール認識の報酬によって拡張され, 非ループ実環境におけるバスの保持を効果的に管理できることが示唆された。このパラダイムは、MARLフレームワークに代わる堅牢でスケーラブルな代替手段を提供する。

関連論文リスト

Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control [8.312659530314937]
適応的な信号制御のためのデータ駆動型アプローチとして強化学習(RL)が出現する。本稿では,DQN-DPUS(Deep Q-Network)のための動的強化更新戦略を提案する。提案手法は最適探索を犠牲にすることなく収束速度を向上できることを示す。
論文参考訳（メタデータ） (2025-02-23T15:29:12Z)
Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文参考訳（メタデータ） (2024-12-11T06:35:18Z)
A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility [5.19664437943693]
本稿では,艦隊スケジューリング問題の包括的最適化について述べる。また、代替ソリューションのアプローチの必要性も認識している。新しい模倣アプローチは、目に見えない最悪のシナリオにおいて、パフォーマンスと顕著な改善を実現する。
論文参考訳（メタデータ） (2024-07-16T18:51:24Z)
Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文参考訳（メタデータ） (2023-06-29T15:57:07Z)
Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。 OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2021-11-22T13:27:42Z)
A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文参考訳（メタデータ） (2021-05-27T16:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。