論文の概要: Interpreting Reinforcement Learning Agents with Susceptibilities
- arxiv url: http://arxiv.org/abs/2605.08007v1
- Date: Fri, 08 May 2026 16:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.222089
- Title: Interpreting Reinforcement Learning Agents with Susceptibilities
- Title(参考訳): 感受性のある強化学習エージェントの解釈
- Authors: Chris Elliott, Einar Urdshals, David Quarel, Daniel Murfet,
- Abstract要約: サセプティビティ(Susceptibilities)は、障害の摂動に対する可観測物の後方予測値の応答を研究するニューラルネットワークの解釈可能性のテクニックである。
本稿では,非自明な段階的発達を示す単純なグリッドワールドモデルにおける感受性の有用性について検討する。
- 参考スコア(独自算出の注目度): 1.4305049580672984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Susceptibilities are a technique for neural network interpretability that studies the response of posterior expectation values of observables to perturbations of the loss. We generalize this construction to the setting of the regret in deep reinforcement learning and investigate the utility of susceptibilities in a simple gridworld model that nevertheless exhibits non-trivial stagewise development. We argue that susceptibilities reveal internal features of the development of the model in parameter space that one cannot detect purely by studying the development of the learned policy. We validate these results with activation-steering, and discuss the framework's extension to RLHF post-training.
- Abstract(参考訳): サセプティビティ(Susceptibilities)は、障害の摂動に対する可観測物の後方予測値の応答を研究するニューラルネットワークの解釈可能性のテクニックである。
我々は、この構築を、深層強化学習における後悔の設定に一般化し、しかしながら、非自明な段階的発達を示す単純なグリッドワールドモデルにおいて、感受性の有用性について検討する。
本研究では, パラメータ空間におけるモデル開発の内部的特徴を明らかにすることで, 学習方針の発達を研究することによって, 純粋に検出できないことを論じる。
これらの結果をアクティベーション・ステアリングで検証し,RLHFポストトレーニングに対するフレームワークの拡張について論じる。
関連論文リスト
- Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Catastrophic Forgetting in Kolmogorov-Arnold Networks [27.683054983159835]
破滅的な忘れは継続的な学習における長年の挑戦である。
Kolmogorov-Arnold Networks (KANs) のような最近のアーキテクチャの進歩は、忘れることに対する本質的な抵抗を提供するように提案されている。
本稿では,カーンズにおける破滅的な忘れを包括的に研究し,忘れをアクティベーションサポートの重複と本質的なデータ次元に結びつける理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-11-16T23:22:50Z) - Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。
複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文 参考訳(メタデータ) (2024-12-25T17:32:45Z) - When does Self-Prediction help? Understanding Auxiliary Tasks in Reinforcement Learning [12.717759767131174]
強化学習における観察再構成や潜時自己予測などの補助学習タスクが表現学習問題に与える影響について検討する。
本稿では,注意散逸や観察機能の存在下での観察再構成,潜時自己予測,およびTD学習の学習力学に関する理論的解析を行う。
論文 参考訳(メタデータ) (2024-06-25T17:06:57Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。