論文の概要: Nonconvex Regularization for Feature Selection in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.15652v1
- Date: Fri, 19 Sep 2025 06:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.026436
- Title: Nonconvex Regularization for Feature Selection in Reinforcement Learning
- Title(参考訳): 強化学習における特徴選択のための非凸規則化
- Authors: Kyohei Suzuki, Konstantinos Slavakis,
- Abstract要約: 本研究では,理論収束保証付き強化学習(RL)における特徴選択のための効率的なバッチアルゴリズムを提案する。
数値実験により,提案手法が州選択シナリオを大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 7.408148824204063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes an efficient batch algorithm for feature selection in reinforcement learning (RL) with theoretical convergence guarantees. To mitigate the estimation bias inherent in conventional regularization schemes, the first contribution extends policy evaluation within the classical least-squares temporal-difference (LSTD) framework by formulating a Bellman-residual objective regularized with the sparsity-inducing, nonconvex projected minimax concave (PMC) penalty. Owing to the weak convexity of the PMC penalty, this formulation can be interpreted as a special instance of a general nonmonotone-inclusion problem. The second contribution establishes novel convergence conditions for the forward-reflected-backward splitting (FRBS) algorithm to solve this class of problems. Numerical experiments on benchmark datasets demonstrate that the proposed approach substantially outperforms state-of-the-art feature-selection methods, particularly in scenarios with many noisy features.
- Abstract(参考訳): 本研究では,理論収束保証付き強化学習(RL)における特徴選択のための効率的なバッチアルゴリズムを提案する。
従来の正規化スキームに固有の推定バイアスを軽減するため、第1のコントリビューションは、最小二乗時間差分法(LSTD)フレームワークにおけるポリシー評価を、空間性誘導型非凸投影ミニマックス凹部(PMC)ペナルティで正規化されたベルマン-残留目標を定式化することによって拡張する。
PMCペナルティの弱い凸性のため、この定式化は一般的な非単調包摂問題の特別な例と解釈できる。
第2のコントリビューションは、このクラスの問題を解決するために、フォワード反射逆スプリッティング(FRBS)アルゴリズムのための新しい収束条件を確立する。
ベンチマークデータセットの数値実験により、提案手法は、特に多くのノイズのある特徴を持つシナリオにおいて、最先端の機能選択法を大幅に上回っていることが示された。
関連論文リスト
- Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-07T16:31:42Z) - Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Constrained Sampling with Primal-Dual Langevin Monte Carlo [15.634831573546041]
この研究は、正規化定数まで既知の確率分布からサンプリングする問題を考察する。
一般非線形関数の期待値によって定義された統計的制約の集合を満たす。
我々は,目標分布とサンプルを同時に制約する離散時間原始二元Langevin Monte Carloアルゴリズム(PD-LMC)を提唱した。
論文 参考訳(メタデータ) (2024-11-01T13:26:13Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Predictor-Rejector Multi-Class Abstention: Theoretical Analysis and Algorithms [30.389055604165222]
マルチクラス分類設定において,留意を伴う学習の鍵となる枠組みについて検討する。
この設定では、学習者は事前に定義されたコストで予測をしないことを選択できる。
我々は、強い非漸近的および仮説的整合性を保証するために、いくつかの新しい代理損失の族を導入する。
論文 参考訳(メタデータ) (2023-10-23T10:16:27Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。