論文の概要: Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control
- arxiv url: http://arxiv.org/abs/2508.20784v1
- Date: Thu, 28 Aug 2025 13:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.429169
- Title: Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control
- Title(参考訳): バスフリート制御のためのシングルエージェントロバスト深部強化学習
- Authors: Yifan Zhang,
- Abstract要約: バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 9.910562011343009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bus bunching remains a challenge for urban transit due to stochastic traffic and passenger demand. Traditional solutions rely on multi-agent reinforcement learning (MARL) in loop-line settings, which overlook realistic operations characterized by heterogeneous routes, timetables, fluctuating demand, and varying fleet sizes. We propose a novel single-agent reinforcement learning (RL) framework for bus holding control that avoids the data imbalance and convergence issues of MARL under near-realistic simulation. A bidirectional timetabled network with dynamic passenger demand is constructed. The key innovation is reformulating the multi-agent problem into a single-agent one by augmenting the state space with categorical identifiers (vehicle ID, station ID, time period) in addition to numerical features (headway, occupancy, velocity). This high-dimensional encoding enables single-agent policies to capture inter-agent dependencies, analogous to projecting non-separable inputs into a higher-dimensional space. We further design a structured reward function aligned with operational goals: instead of exponential penalties on headway deviations, a ridge-shaped reward balances uniform headways and schedule adherence. Experiments show that our modified soft actor-critic (SAC) achieves more stable and superior performance than benchmarks, including MADDPG (e.g., -430k vs. -530k under stochastic conditions). These results demonstrate that single-agent deep RL, when enhanced with categorical structuring and schedule-aware rewards, can effectively manage bus holding in non-loop, real-world contexts. This paradigm offers a robust, scalable alternative to MARL frameworks, particularly where agent-specific experiences are imbalanced.
- Abstract(参考訳): バスの群れは、交通渋滞と乗客の需要のため、都市交通にとって依然として課題である。
従来のソリューションはループライン設定におけるマルチエージェント強化学習(MARL)に依存しており、これは異種ルート、時刻表、変動する需要、および様々な艦隊サイズによって特徴づけられる現実的な操作を見落としている。
本稿では,MARLのデータ不均衡や収束問題を回避するため,バス保持制御のための新しい単エージェント強化学習(RL)フレームワークを提案する。
動的旅客需要を伴う双方向のタイムテーブルネットワークを構築した。
重要な革新は、数値的特徴(先頭、占有、速度)に加えて、カテゴリー識別子(車両ID、ステーションID、時刻)で状態空間を拡大することで、マルチエージェント問題を単一エージェントに再構成することである。
この高次元符号化により、より高次元空間に非分離的な入力を投影するのと同様に、単一エージェントポリシーがエージェント間の依存関係をキャプチャできる。
さらに,ヘッドウェイ偏差に対する指数的な罰則の代わりに,リッジ形状の報酬関数はヘッドウェイとスケジュール順守を均一にバランスする。
実験の結果,MADDPG (例えば, -430k vs. -530k) を含むベンチマークよりも, より安定かつ優れた性能が得られた。
これらの結果から, 単一エージェントの深層RLは, 階層構造とスケジュール認識の報酬によって拡張され, 非ループ実環境におけるバスの保持を効果的に管理できることが示唆された。
このパラダイムは、MARLフレームワークに代わる堅牢でスケーラブルな代替手段を提供する。
関連論文リスト
- DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Beyond Quantity: Trajectory Diversity Scaling for Code Agents [51.71414642763219]
Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
論文 参考訳(メタデータ) (2026-02-03T07:43:03Z) - Human-Centric Traffic Signal Control for Equity: A Multi-Agent Action Branching Deep Reinforcement Learning Approach [5.2437780355984165]
人中心型マルチエージェントアクションブラッチングダブルディープQネットワーク(DQN)フレームワークであるMA2B-DDQNを提案する。
我々の重要な貢献は、廊下制御を局所的な区間ごとの動作に分解するアクション分岐離散制御の定式化である。
また、歩行者、乗務員、交通機関の乗客を考慮し、廊下で遅れた人の数を罰する人間中心の報酬も設計する。
論文 参考訳(メタデータ) (2026-02-03T00:56:03Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Toward Dependency Dynamics in Multi-Agent Reinforcement Learning for Traffic Signal Control [8.312659530314937]
適応的な信号制御のためのデータ駆動型アプローチとして強化学習(RL)が出現する。
本稿では,DQN-DPUS(Deep Q-Network)のための動的強化更新戦略を提案する。
提案手法は最適探索を犠牲にすることなく収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2025-02-23T15:29:12Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility [5.19664437943693]
本稿では,艦隊スケジューリング問題の包括的最適化について述べる。
また、代替ソリューションのアプローチの必要性も認識している。
新しい模倣アプローチは、目に見えない最悪のシナリオにおいて、パフォーマンスと顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-16T18:51:24Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。