論文の概要: Bridging Interpretability and Optimization: Provably Attribution-Weighted Actor-Critic in Reproducing Kernel Hilbert Spaces
- arxiv url: http://arxiv.org/abs/2512.05291v1
- Date: Thu, 04 Dec 2025 22:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.830541
- Title: Bridging Interpretability and Optimization: Provably Attribution-Weighted Actor-Critic in Reproducing Kernel Hilbert Spaces
- Title(参考訳): ブリッジングの解釈可能性と最適化:カーネルヒルベルト空間再生における帰属重み付きアクター臨界
- Authors: Na Li, Hangguan Shan, Wei Ni, Wenjie Zhang, Xinyu Li,
- Abstract要約: 本稿では,Actor,Value Critic,Advantage Criticを含む属性認識,カーネル化,2時間規模のACアルゴリズムを提案する。
アクターは、Hilbert空間(RKHS)をMahalanobis重み付き演算子値カーネルで再現するベクトル値カーネルでインスタンス化される。
我々は、国家の摂動の下で拘束されたグローバルな非漸近収束を導出し、摂動-エラー項による安定性と収束-エラー項による効率を示す。
- 参考スコア(独自算出の注目度): 30.63268349287281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic (AC) methods are a cornerstone of reinforcement learning (RL) but offer limited interpretability. Current explainable RL methods seldom use state attributions to assist training. Rather, they treat all state features equally, thereby neglecting the heterogeneous impacts of individual state dimensions on the reward. We propose RKHS--SHAP-based Advanced Actor--Critic (RSA2C), an attribution-aware, kernelized, two-timescale AC algorithm, including Actor, Value Critic, and Advantage Critic. The Actor is instantiated in a vector-valued reproducing kernel Hilbert space (RKHS) with a Mahalanobis-weighted operator-valued kernel, while the Value Critic and Advantage Critic reside in scalar RKHSs. These RKHS-enhanced components use sparsified dictionaries: the Value Critic maintains its own dictionary, while the Actor and Advantage Critic share one. State attributions, computed from the Value Critic via RKHS--SHAP (kernel mean embedding for on-manifold expectations and conditional mean embedding for off-manifold expectations), are converted into Mahalanobis-gated weights that modulate Actor gradients and Advantage Critic targets. Theoretically, we derive a global, non-asymptotic convergence bound under state perturbations, showing stability through the perturbation-error term and efficiency through the convergence-error term. Empirical results on three standard continuous-control environments show that our algorithm achieves efficiency, stability, and interpretability.
- Abstract(参考訳): アクタークリティカル(AC)法は強化学習(RL)の基盤であるが、限定的な解釈性を提供する。
現在の説明可能なRLメソッドは、トレーニングを支援するために状態属性をほとんど使用しない。
むしろ、それらは全ての状態特徴を等しく扱い、それによって報酬に対する個々の状態次元の不均一な影響を無視する。
本稿では,RKHS-SHAP-based Advanced Actor-Critic (RSA2C)を提案する。
アクターは、Mahalanobis重み付き演算子値カーネルを持つベクトル値再生カーネルヒルベルト空間(RKHS)でインスタンス化され、Value Critic and Advantage CriticはスカラーRKHSに存在する。
価値批判は独自の辞書を維持し、アクターとアドバンテージ批判はそれを共有している。
RKHS-SHAP (kernel mean embedding for on-manifold expected and conditional mean embedding for off-manifold expected) は、アクター勾配とアドバンテージ・クリティカルの目標を変調するマハラノビスゲートウェイトに変換される。
理論的には、状態摂動の下でのグローバルな非漸近収束を導出し、摂動-エラー項による安定性と収束-エラー項による効率を示す。
3つの標準連続制御環境における実験結果から,本アルゴリズムが効率,安定性,解釈可能性を実現することを示す。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Mirror Descent Actor Critic via Bounded Advantage Learning [0.0]
Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。
本稿では,MDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)を連続的なアクション・ドメインに対するアクター・アクター・アクター・アクター・アクター・アクター・クリティ(MDAC)として提案する。
論文 参考訳(メタデータ) (2025-02-06T08:14:03Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。