論文の概要: Balancing Interpretability and Performance in Reinforcement Learning: An Adaptive Spectral Based Linear Approach
- arxiv url: http://arxiv.org/abs/2510.03722v1
- Date: Sat, 04 Oct 2025 07:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.212824
- Title: Balancing Interpretability and Performance in Reinforcement Learning: An Adaptive Spectral Based Linear Approach
- Title(参考訳): 強化学習における解釈可能性と性能のバランス:適応スペクトルに基づく線形アプローチ
- Authors: Qianxin Yi, Shao-Bo Lin, Jun Fan, Yao Wang,
- Abstract要約: 強化学習(RL)はシーケンシャルな意思決定に広く応用されている。
現在のアプローチは一般的にパフォーマンスに重点を置いており、解釈可能性を考慮したポストホックな説明に依存している。
スペクトルフィルタ関数を用いてリッジ回帰に基づくアプローチを拡張するスペクトルベース線形RL法を提案する。
- 参考スコア(独自算出の注目度): 15.065437093352054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been widely applied to sequential decision making, where interpretability and performance are both critical for practical adoption. Current approaches typically focus on performance and rely on post hoc explanations to account for interpretability. Different from these approaches, we focus on designing an interpretability-oriented yet performance-enhanced RL approach. Specifically, we propose a spectral based linear RL method that extends the ridge regression-based approach through a spectral filter function. The proposed method clarifies the role of regularization in controlling estimation error and further enables the design of an adaptive regularization parameter selection strategy guided by the bias-variance trade-off principle. Theoretical analysis establishes near-optimal bounds for both parameter estimation and generalization error. Extensive experiments on simulated environments and real-world datasets from Kuaishou and Taobao demonstrate that our method either outperforms or matches existing baselines in decision quality. We also conduct interpretability analyses to illustrate how the learned policies make decisions, thereby enhancing user trust. These results highlight the potential of our approach to bridge the gap between RL theory and practical decision making, providing interpretability, accuracy, and adaptability in management contexts.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、解釈可能性と性能が共に実践的採用に不可欠であるシーケンシャルな意思決定に広く応用されている。
現在のアプローチは一般的にパフォーマンスに重点を置いており、解釈可能性を考慮したポストホックな説明に依存している。
これらのアプローチと異なり、我々は解釈可能性指向だが性能向上したRLアプローチの設計に重点を置いている。
具体的には、スペクトルフィルタ関数を用いてリッジ回帰に基づくアプローチを拡張するスペクトルベース線形RL法を提案する。
提案手法は,推定誤差制御における正規化の役割を明らかにし,バイアス分散トレードオフ原理によって導かれる適応正規化パラメータ選択戦略の設計を可能にする。
理論的解析は、パラメータ推定と一般化誤差の両方に対して、近似最適境界を確立する。
Kuaishou と Taobao のシミュレーション環境と実世界のデータセットに関する大規模な実験により,本手法が既存の意思決定基準よりも優れているか,あるいは一致していることが示された。
また、学習したポリシーがどのように決定を下すかを説明するために、解釈可能性の分析を行い、ユーザ信頼を高める。
これらの結果は、RL理論と実践的意思決定のギャップを埋めるアプローチの可能性を強調し、管理コンテキストにおける解釈可能性、正確性、適応性を提供する。
関連論文リスト
- Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Probabilistic Constrained Reinforcement Learning with Formal Interpretability [2.990411348977783]
本稿では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。
提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。
TRPO-IPO, PCPO, CRPOといった最先端ベンチマークと比較して, AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2023-07-13T22:52:22Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。