論文の概要: Distilling Deep Reinforcement Learning into Interpretable Fuzzy Rules: An Explainable AI Framework
- arxiv url: http://arxiv.org/abs/2603.13257v1
- Date: Tue, 24 Feb 2026 23:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.238244
- Title: Distilling Deep Reinforcement Learning into Interpretable Fuzzy Rules: An Explainable AI Framework
- Title(参考訳): 深い強化学習を解釈可能なファジィルールに拡張する - 説明可能なAIフレームワーク
- Authors: Sanup S. Araballi, Simon Khan, Chilukuri K. Mohan,
- Abstract要約: 深層強化学習(DRL)エージェントは、継続的な制御において顕著なパフォーマンスを達成するが、不透明なままであり、安全クリティカルなドメインへの展開を妨げる。
既存の説明可能性法は、局所的な洞察(SHAP、LIME)のみを提供するか、過度に単純化されたサロゲートを使用し、連続的なダイナミクスを捉えることができない。
本研究では、状態可読パーティショニングのためのK-Meansクラスタリングを通じて、ニューラルポリシーを人間可読IF-THENルールに蒸留するファジィシステム(FCS)を提案する。
説明焦点を測定するルール密度(FRAD)、語彙完全性を検証するファジィ集合被覆(FSC)、行動空間の粒度(Action Space Granularity)の3つの定量化指標が導入された。
- 参考スコア(独自算出の注目度): 1.9180507495574395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement Learning (DRL) agents achieve remarkable performance in continuous control but remain opaque, hindering deployment in safety-critical domains. Existing explainability methods either provide only local insights (SHAP, LIME) or employ over-simplified surrogates failing to capture continuous dynamics (decision trees). This work proposes a Hierarchical Takagi-Sugeno-Kang (TSK) Fuzzy Classifier System (FCS) distilling neural policies into human-readable IF-THEN rules through K-Means clustering for state partitioning and Ridge Regression for local action inference. Three quantifiable metrics are introduced: Fuzzy Rule Activation Density (FRAD) measuring explanation focus, Fuzzy Set Coverage (FSC) validating vocabulary completeness, and Action Space Granularity (ASG) assessing control mode diversity. Dynamic Time Warping (DTW) validates temporal behavioral fidelity. Empirical evaluation on \textit{Lunar Lander(Continuous)} shows the Triangular membership function variant achieves 81.48\% $\pm$ 0.43\% fidelity, outperforming Decision Trees by 21 percentage points. The framework exhibits statistically superior interpretability (FRAD = 0.814 vs. 0.723 for Gaussian, $p < 0.001$) with low MSE (0.0053) and DTW distance (1.05). Extracted rules such as ``IF lander drifting left at high altitude THEN apply upward thrust with rightward correction'' enable human verification, establishing a pathway toward trustworthy autonomous systems.
- Abstract(参考訳): 深層強化学習(DRL)エージェントは、継続的な制御において顕著なパフォーマンスを達成するが、不透明なままであり、安全クリティカルなドメインへの展開を妨げる。
既存の説明可能性法は、局所的な洞察(SHAP、LIME)のみを提供するか、過剰に単純化されたサロゲートを使用し、連続的なダイナミクス(決定木)を捉えることができない。
本研究では, 階層型高木スゲノカン(TSK)ファジィ分類システム (FCS) を提案し, 局所行動推論のためのK-Meansクラスタリングとリッジ回帰を用いて, ニューラルネットワークを可読IF-THENルールに蒸留する。
説明焦点を測定するファジィルール活性化密度(FRAD)、語彙完全性を検証するファジィセット被覆(FSC)、制御モードの多様性を評価するアクション空間粒度(ASG)の3つの定量化指標が導入された。
動的時間ワープ(DTW)は時間的行動の忠実さを検証する。
textit{Lunar Lander(Continuous") の実証的な評価は、三角形のメンバシップ関数の変種が81.48\% $\pm$ 0.43\% 忠実度を獲得し、決定木を21ポイント上回っていることを示している。
このフレームワークは統計的に優れた解釈性(FRAD = 0.814 vs. 0.723)、低いMSE(0.0053)とDTW距離(1.05)を持つ$p < 0.001$)を示す。
高高度で漂流する「IFランダー」のような抽出された規則は、右向きの修正で上向きの推力を適用し、人間による検証を可能にし、信頼できる自律システムへの道筋を確立する。
関連論文リスト
- Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement [16.505918019260964]
SAHOOは3つのセーフガードを通してドリフトを監視し制御するためのフレームワークである。
GDIは意味、語彙、構造、分布の計測を組み合わせた多信号検出器である。
制約保存チェックは、構文的正当性や非幻覚といった安全クリティカルな不変性を強制する。
論文 参考訳(メタデータ) (2026-03-06T14:44:51Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。