Fugu-MT 論文翻訳(概要): COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

論文の概要: COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

arxiv url: http://arxiv.org/abs/2603.07546v1
Date: Sun, 08 Mar 2026 09:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.796068
Title: COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance
Title（参考訳）: COOL-MC:マルチブリッジネットワーク保守のためのRLポリシの検証と説明
Authors: Dennis Gross,
Abstract要約: 老朽化したブリッジネットワークは、積極的に、検証可能で、解釈可能なメンテナンス戦略を必要とする。報酬信号のみに基づいて訓練された強化学習(RL)ポリシーは、正式な安全保証を提供しない。マルチブリッジネットワーク保守のためのRLポリシーを検証・説明するためのツールとしてCOOL-MCを実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aging bridge networks require proactive, verifiable, and interpretable maintenance strategies, yet reinforcement learning (RL) policies trained solely on reward signals provide no formal safety guarantees and remain opaque to infrastructure managers. We demonstrate COOL-MC as a tool for verifying and explaining RL policies for multi-bridge network maintenance, building on a single-bridge Markov decision process (MDP) from the literature and extending it to a parallel network of three heterogeneous bridges with a shared periodic budget constraint, encoded in the PRISM modeling language. We train an RL agent on this MDP and apply probabilistic model checking and explainability methods to the induced discrete-time Markov chain (DTMC) that arises from the interaction between the learned policy and the underlying MDP. Probabilistic model checking reveals that the trained policy has a safety-violation probability of 3.5\% over the planning horizon, being slightly above the theoretical minimum of 0\% and indicating the suboptimality of the learned policy, noting that these results are based on artificially constructed transition probabilities and deterioration rates rather than real-world data, so absolute performance figures should be interpreted with caution. The explainability analysis further reveals, for instance, a systematic bias in the trained policy toward the state of bridge 1 over the remaining bridges in the network. These results demonstrate COOL-MC's ability to provide formal, interpretable, and practical analysis of RL maintenance policies.
Abstract（参考訳）: 老朽化した橋梁網は、積極的な、検証可能な、解釈可能な保守戦略を必要とするが、報酬信号のみに基づいて訓練された強化学習(RL)ポリシーは、正式な安全保証を提供しておらず、インフラ管理者には不透明である。本稿では,マルチブリッジネットワーク保守のためのRLポリシの検証と説明,文献からのシングルブリッジマルコフ決定プロセス(MDP)の構築,PRISMモデリング言語で符号化された周期的予算制約を持つ3つのヘテロジニアスブリッジの並列ネットワークへの拡張を行うツールとして,COOL-MCを実証する。我々は、このMDP上でRLエージェントを訓練し、学習ポリシーと基礎となるMDPとの相互作用から生じる離散時間マルコフ連鎖(DTMC)に確率論的モデルチェックと説明可能性手法を適用した。確率論的モデル検査は、訓練された政策が計画地平線上で3.5\%の安全違反確率を持ち、理論上の0\%よりわずかに高く、学習された政策の準最適性を示しており、これらの結果は実世界のデータよりも人工的に構築された遷移確率と劣化率に基づいており、絶対的な性能数値は慎重に解釈されるべきであることを示している。説明可能性分析により、例えば、ネットワーク内の残りのブリッジ上のブリッジ1の状態に対する訓練されたポリシーの体系的なバイアスが明らかになる。これらの結果は、COOL-MCがRL保守ポリシーの形式的、解釈可能、実践的分析を提供する能力を示している。

関連論文リスト

Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文参考訳（メタデータ） (2025-07-25T17:08:16Z)
From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文参考訳（メタデータ） (2025-01-16T22:11:03Z)
Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文参考訳（メタデータ） (2022-10-14T03:22:43Z)
Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。 MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文参考訳（メタデータ） (2022-02-07T04:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。