論文の概要: Full-Gradient Successor Feature Representations
- arxiv url: http://arxiv.org/abs/2604.00686v1
- Date: Wed, 01 Apr 2026 09:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.924794
- Title: Full-Gradient Successor Feature Representations
- Title(参考訳): フルグラディエント継承型特徴表現
- Authors: Ritish Shrirao, Aditya Priyadarshi, Raghuram Bharadwaj Diddigi,
- Abstract要約: 一般化政策改善(GPI)と組み合わせた継承的特徴(SF)は、強化学習(RL)における伝達学習のための堅牢な枠組みを提供する
本稿では,完全次数継承特徴表現Q-Learning(FG-SFRQL)を提案する。
本稿では,FG-SFRQLのほぼ完全収束の理論的証明と,完全残留の最小化が試料効率と転写性能の向上につながることを実証的に証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successor Features (SF) combined with Generalized Policy Improvement (GPI) provide a robust framework for transfer learning in Reinforcement Learning (RL) by decoupling environment dynamics from reward functions. However, standard SF learning methods typically rely on semi-gradient Temporal Difference (TD) updates. When combined with non-linear function approximation, semi-gradient methods lack robust convergence guarantees and can lead to instability, particularly in the multi-task setting where accurate feature estimation is critical for effective GPI. Inspired by Full Gradient DQN, we propose Full-Gradient Successor Feature Representations Q-Learning (FG-SFRQL), an algorithm that optimizes the successor features by minimizing the full Mean Squared Bellman Error. Unlike standard approaches, our method computes gradients with respect to parameters in both the online and target networks. We provide a theoretical proof of almost-sure convergence for FG-SFRQL and demonstrate empirically that minimizing the full residual leads to superior sample efficiency and transfer performance compared to semi-gradient baselines in both discrete and continuous domains.
- Abstract(参考訳): 総合政策改善(GPI)と組み合わされた継承機能(SF)は、報酬関数から環境ダイナミクスを分離することにより、強化学習(RL)における伝達学習のための堅牢なフレームワークを提供する。
しかし、標準的なSF学習手法は一般的に、半段階的な時間差分(TD)更新に依存している。
非線型関数近似と組み合わせると、半勾配法は堅牢な収束保証を欠き、特に効率的なGPIに正確な特徴推定が重要であるマルチタスク設定において不安定になる可能性がある。
FG-SFRQL(Full-Gradient Successor Feature Representations Q-Learning, FG-SFRQL)を提案する。
従来の手法とは異なり,本手法はオンラインネットワークとターゲットネットワークの両方のパラメータに関して勾配を計算する。
本稿では, FG-SFRQL のほぼ完全収束の理論的証明と, 完全残差の最小化により, 離散領域および連続領域の半次ベースラインと比較して, 試料効率および転送性能が向上することを示す。
関連論文リスト
- Efficient Last-Iterate Convergence in Regret Minimization via Adaptive Reward Transformation [12.18106607619171]
Reward Transformationフレームワークは、最後の収束を達成するために、後悔の最小化のために導入された。
本稿では,これらの問題に対処し,理論的保証と実用性能の整合性を確保するための適応手法を提案する。
我々の手法は収束を著しく加速し、最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-09-17T02:58:20Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation [28.63391989014238]
連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。
サンプルと計算効率の両方を実現するモデルベースアルゴリズムを提案する。
我々は,$N$の測定値を用いて,$tildeO(sqrtd_mathcalR + d_mathcalFN-1/2)$の準最適解を求めることができることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:37:51Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。
本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。
MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - An improved convergence analysis for decentralized online stochastic
non-convex optimization [17.386715847732468]
本稿では,GT-Loakjasiewics(GT-Loakjasiewics)と呼ばれる手法が,GT-Loakjasiewics(GT-Loakjasiewics)が現在の収束率を満たすことを示す。
結果はすぐに適用できるだけでなく、現在知られている最高の収束率にも適用できる。
論文 参考訳(メタデータ) (2020-08-10T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。