論文の概要: Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.17077v2
- Date: Mon, 02 Jun 2025 10:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.013093
- Title: Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning
- Title(参考訳): ニューラルモジュールの誘導・検出・特徴付け:強化学習における機能的解釈可能性のためのパイプライン
- Authors: Anna Soligo, Pietro Ferraro, David Boyle,
- Abstract要約: ネットワーク重みの空間性と局所性がRLポリシネットワークにおける機能モジュールの出現にいかに寄与するかを示す。
これらの手法を2Dおよび3D MiniGrid環境に適用すると、異なる軸に対して異なるナビゲーションモジュールが一貫した出現を示す。
- 参考スコア(独自算出の注目度): 1.597617022056624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability is crucial for ensuring RL systems align with human values. However, it remains challenging to achieve in complex decision making domains. Existing methods frequently attempt interpretability at the level of fundamental model units, such as neurons or decision nodes: an approach which scales poorly to large models. Here, we instead propose an approach to interpretability at the level of functional modularity. We show how encouraging sparsity and locality in network weights leads to the emergence of functional modules in RL policy networks. To detect these modules, we develop an extended Louvain algorithm which uses a novel `correlation alignment' metric to overcome the limitations of standard network analysis techniques when applied to neural network architectures. Applying these methods to 2D and 3D MiniGrid environments reveals the consistent emergence of distinct navigational modules for different axes, and we further demonstrate how these functions can be validated through direct interventions on network weights prior to inference.
- Abstract(参考訳): 解釈可能性は、RLシステムと人間の価値の一致を保証するために不可欠である。
しかし、複雑な意思決定領域で達成することは依然として困難である。
既存の手法はしばしば、ニューロンや決定ノードのような基本的なモデル単位のレベルで解釈可能性を試行する。
ここでは,機能的モジュラリティのレベルでの解釈可能性に対するアプローチを提案する。
ネットワーク重みの空間性と局所性がRLポリシネットワークにおける機能モジュールの出現にいかに寄与するかを示す。
これらのモジュールを検出するために,ニューラルネットワークアーキテクチャに適用する場合の標準的なネットワーク解析手法の限界を克服するために,新しい'相関アライメント'メトリックを用いた拡張ルービンアルゴリズムを開発した。
これらの手法を2Dおよび3D MiniGrid環境に適用すると、異なる軸の異なるナビゲーションモジュールが一貫した出現を示す。
関連論文リスト
- SymDQN: Symbolic Knowledge and Reasoning in Neural Network-based Reinforcement Learning [0.0]
我々は既存のDuelDQNアーキテクチャを拡張した新しいモジュラーアプローチであるSymDQNを紹介する。
モジュールはアクションポリシー学習をガイドし、強化学習エージェントが環境に関する推論と整合した振る舞いを表示できるようにする。
我々のアーキテクチャは、性能とエージェントの精度の両方において、学習を大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-04-03T14:51:11Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions [2.50194939587674]
本稿では,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。
本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
論文 参考訳(メタデータ) (2024-05-25T11:21:12Z) - Self-Supervised Interpretable End-to-End Learning via Latent Functional Modularity [2.163881720692685]
MoNetは、自己教師付き、解釈可能なエンドツーエンド学習のための、機能的にモジュール化されたネットワークである。
現実世界の屋内環境では、MoNetは効果的な視覚自律ナビゲーションを示し、ベースラインモデルを7%から28%上回っている。
論文 参考訳(メタデータ) (2024-02-21T15:17:20Z) - Foundations of Reinforcement Learning and Interactive Decision Making [81.76863968810423]
本稿では,頻度主義的アプローチとベイズ的アプローチを用いた探索・探索ジレンマに対処するための統一的な枠組みを提案する。
ニューラルネットワークのような近似とフレキシブルなモデルクラスを機能させるために特別な注意が払われる。
論文 参考訳(メタデータ) (2023-12-27T21:58:45Z) - Harmonizing Feature Attributions Across Deep Learning Architectures:
Enhancing Interpretability and Consistency [2.2237337682863125]
本研究では,様々なディープラーニングアーキテクチャにおける特徴属性の一般化について検討する。
私たちは、より一貫性があり楽観的な特徴属性の理解を深めることを目指しています。
本研究は,解釈可能性の向上と機械学習アプリケーションの信頼性向上を目的とした,調和した特徴帰属手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-05T09:46:41Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。