論文の概要: Balancing Interpretability and Performance in Reinforcement Learning: An Adaptive Spectral Based Linear Approach
- arxiv url: http://arxiv.org/abs/2510.03722v1
- Date: Sat, 04 Oct 2025 07:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.212824
- Title: Balancing Interpretability and Performance in Reinforcement Learning: An Adaptive Spectral Based Linear Approach
- Title(参考訳): 強化学習における解釈可能性と性能のバランス:適応スペクトルに基づく線形アプローチ
- Authors: Qianxin Yi, Shao-Bo Lin, Jun Fan, Yao Wang,
- Abstract要約: 強化学習(RL)はシーケンシャルな意思決定に広く応用されている。
現在のアプローチは一般的にパフォーマンスに重点を置いており、解釈可能性を考慮したポストホックな説明に依存している。
スペクトルフィルタ関数を用いてリッジ回帰に基づくアプローチを拡張するスペクトルベース線形RL法を提案する。
- 参考スコア(独自算出の注目度): 15.065437093352054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been widely applied to sequential decision making, where interpretability and performance are both critical for practical adoption. Current approaches typically focus on performance and rely on post hoc explanations to account for interpretability. Different from these approaches, we focus on designing an interpretability-oriented yet performance-enhanced RL approach. Specifically, we propose a spectral based linear RL method that extends the ridge regression-based approach through a spectral filter function. The proposed method clarifies the role of regularization in controlling estimation error and further enables the design of an adaptive regularization parameter selection strategy guided by the bias-variance trade-off principle. Theoretical analysis establishes near-optimal bounds for both parameter estimation and generalization error. Extensive experiments on simulated environments and real-world datasets from Kuaishou and Taobao demonstrate that our method either outperforms or matches existing baselines in decision quality. We also conduct interpretability analyses to illustrate how the learned policies make decisions, thereby enhancing user trust. These results highlight the potential of our approach to bridge the gap between RL theory and practical decision making, providing interpretability, accuracy, and adaptability in management contexts.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、解釈可能性と性能が共に実践的採用に不可欠であるシーケンシャルな意思決定に広く応用されている。
現在のアプローチは一般的にパフォーマンスに重点を置いており、解釈可能性を考慮したポストホックな説明に依存している。
これらのアプローチと異なり、我々は解釈可能性指向だが性能向上したRLアプローチの設計に重点を置いている。
具体的には、スペクトルフィルタ関数を用いてリッジ回帰に基づくアプローチを拡張するスペクトルベース線形RL法を提案する。
提案手法は,推定誤差制御における正規化の役割を明らかにし,バイアス分散トレードオフ原理によって導かれる適応正規化パラメータ選択戦略の設計を可能にする。
理論的解析は、パラメータ推定と一般化誤差の両方に対して、近似最適境界を確立する。
Kuaishou と Taobao のシミュレーション環境と実世界のデータセットに関する大規模な実験により,本手法が既存の意思決定基準よりも優れているか,あるいは一致していることが示された。
また、学習したポリシーがどのように決定を下すかを説明するために、解釈可能性の分析を行い、ユーザ信頼を高める。
これらの結果は、RL理論と実践的意思決定のギャップを埋めるアプローチの可能性を強調し、管理コンテキストにおける解釈可能性、正確性、適応性を提供する。
関連論文リスト
- Towards regularized learning from functional data with covariate shift [3.072411352294816]
本稿では,ベクトル値回帰における教師なし領域適応のための一般化正規化フレームワークについて検討する。
仮説空間を制限することにより,関数的出力を扱える実用的な演算子学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-28T20:30:05Z) - A Comedy of Estimators: On KL Regularization in RL Training of LLMs [81.7906270099878]
強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-12-26T04:20:58Z) - OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Probabilistic Constrained Reinforcement Learning with Formal Interpretability [2.990411348977783]
本稿では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。
提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。
TRPO-IPO, PCPO, CRPOといった最先端ベンチマークと比較して, AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2023-07-13T22:52:22Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。