論文の概要: Mutual Information Tracks Policy Coherence in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.10423v1
- Date: Fri, 12 Sep 2025 17:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.180123
- Title: Mutual Information Tracks Policy Coherence in Reinforcement Learning
- Title(参考訳): 相互情報による強化学習におけるポリシーの一貫性の追跡
- Authors: Cameron Reid, Wael Hafez, Amirhossein Nazeri,
- Abstract要約: 強化学習(RL)エージェントは、センサの故障、アクチュエータの摩耗、環境変化による劣化に直面している。
本稿では,RLの基本動力学を両立させる情報理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) agents deployed in real-world environments face degradation from sensor faults, actuator wear, and environmental shifts, yet lack intrinsic mechanisms to detect and diagnose these failures. We present an information-theoretic framework that reveals both the fundamental dynamics of RL and provides practical methods for diagnosing deployment-time anomalies. Through analysis of state-action mutual information patterns in a robotic control task, we first demonstrate that successful learning exhibits characteristic information signatures: mutual information between states and actions steadily increases from 0.84 to 2.83 bits (238% growth) despite growing state entropy, indicating that agents develop increasingly selective attention to task-relevant patterns. Intriguingly, states, actions and next states joint mutual information, MI(S,A;S'), follows an inverted U-curve, peaking during early learning before declining as the agent specializes suggesting a transition from broad exploration to efficient exploitation. More immediately actionable, we show that information metrics can differentially diagnose system failures: observation-space, i.e., states noise (sensor faults) produces broad collapses across all information channels with pronounced drops in state-action coupling, while action-space noise (actuator faults) selectively disrupts action-outcome predictability while preserving state-action relationships. This differential diagnostic capability demonstrated through controlled perturbation experiments enables precise fault localization without architectural modifications or performance degradation. By establishing information patterns as both signatures of learning and diagnostic for system health, we provide the foundation for adaptive RL systems capable of autonomous fault detection and policy adjustment based on information-theoretic principles.
- Abstract(参考訳): 現実世界の環境に展開される強化学習(RL)エージェントは、センサーの故障、アクチュエータの摩耗、環境の変化による劣化に直面しているが、これらの障害を検出し診断するための固有のメカニズムは欠如している。
本稿では,RLの基本動力学を両立させる情報理論フレームワークを提案する。
ロボット制御タスクにおける状態-動作の相互情報パターンの分析を通じて、成功学習が特徴的な情報シグネチャを示すことを最初に示す: 状態エントロピーが増大するにもかかわらず、状態と行動間の相互情報は着実に0.84ビットから2.83ビット(238%)に増加する。
興味深いことに、状態、行動、および次の状態の相互情報(MI(S,A;S')は逆U曲線に従っており、エージェントが広い探検から効率的な搾取への移行を提案することを特化しているため、早期学習中にピークに達する。
観測空間(センサフォールト)は、状態-作用結合が顕著に低下する情報チャネル全体にわたって広範に崩壊し、動作空間ノイズ(アクチュエータフォールト)は状態-作用関係を保ちながら行動-出力予測可能性を選択的に破壊する。
この差分診断能力は、制御された摂動実験により、アーキテクチャの変更や性能劣化を伴わずに正確な断層定位を可能にする。
システムヘルスの学習と診断のシグネチャとして情報パターンを確立することにより、自律的故障検出と情報理論の原則に基づくポリシー調整が可能な適応型RLシステムの基盤を提供する。
関連論文リスト
- Hierarchical Reinforcement Learning Framework for Adaptive Walking Control Using General Value Functions of Lower-Limb Sensor Signals [0.40498500266986387]
階層強化学習を用いて,低域外骨格に対する適応制御戦略を開発する。
提案手法は,エクソスケルトン制御適応の複雑なタスクを,地形戦略適応のための高レベルフレームワークと予測情報を提供する低レベルフレームワークに分解する。
本研究では,実際のセンサ信号と予測センサ信号を政策ネットワークに組み込むことにより,制御システムの意思決定能力を向上させることを目的とした2つの手法について検討した。
論文 参考訳(メタデータ) (2025-07-22T19:47:04Z) - Rethinking Spatio-Temporal Anomaly Detection: A Vision for Causality-Driven Cybersecurity [22.491097360752903]
我々は,空間的分散インフラにおける異常検出の促進を目的とした因果学習の視点を提唱する。
我々は因果グラフプロファイリング、多視点融合、連続因果グラフ学習の3つの主要な方向を特定し定式化する。
我々の目的は、拡張性、適応性、説明性、空間的根拠を持つ異常検出システムに向けた新しい研究軌道を構築することである。
論文 参考訳(メタデータ) (2025-07-10T21:19:28Z) - Ensuring Medical AI Safety: Interpretability-Driven Detection and Mitigation of Spurious Model Behavior and Associated Data [14.991686165405959]
2つのモダリティにまたがる4つの医療データセットを用いて,フレームワークの適用性を示す。
VGG16, ResNet50, および同時代のVision Transformerモデルにおいて, これらのバイアスを特定し, 解放することに成功した。
論文 参考訳(メタデータ) (2025-01-23T16:39:09Z) - Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference for Sensor Signals [15.249261198557218]
センサ信号の半教師付き異常検出は、スマート製造におけるシステムの信頼性確保に不可欠である。
本稿では,三重補足型因果強化学習モデル(Tri-CRLAD)を革新的に構築する。
7つのセンサ信号データセットに対する実験結果から、Tri-CRLADは9つの最先端のベースライン法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-11T06:10:05Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。