Fugu-MT 論文翻訳(概要): RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

論文の概要: RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

arxiv url: http://arxiv.org/abs/2603.18396v1
Date: Thu, 19 Mar 2026 01:37:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.906018
Title: RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach
Title（参考訳）: RE-SAC:バス・フリート・コントロールにおける動脈硬化・てんかんリスクの分散:安定かつ堅牢なアンサンブルDRLアプローチ
Authors: Yifan Zhang, Liang Zheng,
Abstract要約: 交通量と旅客需要のため、バスの保有管理は困難である。標準的なアクター批判アルゴリズムは揮発性環境におけるQ値不安定性に悩まされる。本研究では,不確実性を解消するために,頑健なアンサンブル・ソフトアクター・クリティック・フレームワークを提案する。
参考スコア（独自算出の注目度）: 19.34848029403215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bus holding control is challenging due to stochastic traffic and passenger demand. While deep reinforcement learning (DRL) shows promise, standard actor-critic algorithms suffer from Q-value instability in volatile environments. A key source of this instability is the conflation of two distinct uncertainties: aleatoric uncertainty (irreducible noise) and epistemic uncertainty (data insufficiency). Treating these as a single risk leads to value underestimation in noisy states, causing catastrophic policy collapse. We propose a robust ensemble soft actor-critic (RE-SAC) framework to explicitly disentangle these uncertainties. RE-SAC applies Integral Probability Metric (IPM)-based weight regularization to the critic network to hedge against aleatoric risk, providing a smooth analytical lower bound for the robust Bellman operator without expensive inner-loop perturbations. To address epistemic risk, a diversified Q-ensemble penalizes overconfident value estimates in sparsely covered regions. This dual mechanism prevents the ensemble variance from misidentifying noise as a data gap, a failure mode identified in our ablation study. Experiments in a realistic bidirectional bus corridor simulation demonstrate that RE-SAC achieves the highest cumulative reward (approx. -0.4e6) compared to vanilla SAC (-0.55e6). Mahalanobis rareness analysis confirms that RE-SAC reduces Oracle Q-value estimation error by up to 62% in rare out-of-distribution states (MAE of 1647 vs. 4343), demonstrating superior robustness under high traffic variability.
Abstract（参考訳）: 交通渋滞と旅客需要のため、バスの保有管理は困難である。深層強化学習(DRL)は将来性を示すが、標準的なアクター批判アルゴリズムは揮発性環境におけるQ値不安定性に悩まされる。この不安定性の鍵となる要因は、2つの異なる不確実性、すなわち、アレター性不確実性(未認識ノイズ)とてんかん性不確実性(データ不完全性)の融合である。これらを単一リスクとして扱うことは、ノイズの多い州で価値過小評価をもたらし、破滅的な政策崩壊を引き起こす。本稿では,これらの不確実性を明確に解消するために,ロバストアンサンブル・ソフトアクター・クリティカル(RE-SAC)フレームワークを提案する。 RE-SACは、批評家ネットワークにIPM(Integrated Probability Metric)ベースの重み正規化を適用して、高い内部ループの摂動を伴わない堅牢なベルマン作用素に対するスムーズな解析的下限を提供する。てんかんリスクに対処するため、多角化したQアンサンブルは、わずかにカバーされた領域における過信値推定をペナル化する。この2つのメカニズムは、増幅実験で同定された故障モードであるデータギャップとして、アンサンブルのノイズが誤認されることを防ぐ。現実的な双方向バス回廊シミュレーションの実験では、RE-SACはバニラSAC (-0.55e6) と比較して最高累積報酬 (-0.4e6) を達成した。 Mahalanobis のレアネス分析では、RE-SAC はレアアウト・オブ・ディストリビューション状態 (MAE of 1647 vs. 4343) において Oracle Q 値推定誤差を最大 62% 削減し、高いトラフィック変動性下で優れたロバスト性を証明している。

関連論文リスト

VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文参考訳（メタデータ） (2026-02-13T03:40:52Z)
Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity [16.835098688159004]
静的条件付きリスクリスク(CVaR)のようなテールエンドのリスク対策は、稀だが破滅的な事態を防止するために安全クリティカルな応用に用いられている。我々は、離散化された拡張状態に依存するリスク逆値とモデルなしQ-ラーニングアルゴリズムを開発した。実験により,本アルゴリズムはCVaR感受性ポリシーを学習し,効果的な性能保証トレードオフを実現することができた。
論文参考訳（メタデータ） (2026-02-03T17:39:45Z)
Bulk-Calibrated Credal Ambiguity Sets: Fast, Tractable Decision Making under Out-of-Sample Contamination [8.826173150779145]
分散ロバストな最適化(DRO)は、あいまいさセットよりも最悪のケースで予想される損失を最小化する。我々は,IPクレダルセットが,解釈可能な許容レベルを持つDRO目標にどのように変換されるかを示す。
論文参考訳（メタデータ） (2026-01-29T06:37:36Z)
Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文参考訳（メタデータ） (2026-01-08T01:41:54Z)
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文参考訳（メタデータ） (2025-06-14T20:36:44Z)
On the Robustness of Kernel Ridge Regression Using the Cauchy Loss Function [3.4956406636452626]
ロバスト回帰は、外れ値、重み付き分布、または汚染データの存在下で未知の回帰関数を推定する手法を開発することを目的としている。頑健な回帰における既存の理論結果の多くは、ノイズは有限絶対平均を持ち、コーシーやいくつかのノイズのような特定の分布に反する仮定を仮定している。絶対平均が無限である場合でも、任意の順序の有限モーメントで全ての雑音分布を許容する一般化されたコーシーノイズフレームワークを導入する。
論文参考訳（メタデータ） (2025-03-26T00:00:53Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文参考訳（メタデータ） (2023-07-15T23:53:37Z)
Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文参考訳（メタデータ） (2022-10-12T07:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。