論文の概要: Bellman Error Centering
- arxiv url: http://arxiv.org/abs/2502.03104v1
- Date: Wed, 05 Feb 2025 12:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:31.311869
- Title: Bellman Error Centering
- Title(参考訳): ベルマンエラーセンター
- Authors: Xingguo Chen, Yu Gong, Shangdong Yang, Wenhao Wang,
- Abstract要約: SRC(Simple reward centering)やVRC(Value-based reward centering)など,最近提案された報奨センタリングアルゴリズムを再検討する。
本稿では,表値関数に対する中心的固定点と線形値関数近似のための中心的TD固定点について述べる。
提案アルゴリズムの安定性を実験的に検証する。
- 参考スコア(独自算出の注目度): 12.026021568207206
- License:
- Abstract: This paper revisits the recently proposed reward centering algorithms including simple reward centering (SRC) and value-based reward centering (VRC), and points out that SRC is indeed the reward centering, while VRC is essentially Bellman error centering (BEC). Based on BEC, we provide the centered fixpoint for tabular value functions, as well as the centered TD fixpoint for linear value function approximation. We design the on-policy CTD algorithm and the off-policy CTDC algorithm, and prove the convergence of both algorithms. Finally, we experimentally validate the stability of our proposed algorithms. Bellman error centering facilitates the extension to various reinforcement learning algorithms.
- Abstract(参考訳): 本稿では,最近提案された報奨センタリングアルゴリズムである単純な報奨センタリング(SRC)と価値に基づく報奨センタリング(VRC)を再検討し,SRCが真の報奨センタリングであり,VRCは本質的にベルマン誤差センタリング(BEC)であることを示す。
BECに基づいて、表値関数に対する中心的固定点と、線形値関数近似のための中心的TD固定点を提供する。
両アルゴリズムの収束性を証明するために, オン・ポリティクスCTDアルゴリズムとオフ・ポリティクスCTDCアルゴリズムを設計する。
最後に,提案アルゴリズムの安定性を実験的に検証した。
Bellmanエラーセンターは、様々な強化学習アルゴリズムの拡張を容易にする。
関連論文リスト
- Heavy-Ball Momentum Accelerated Actor-Critic With Function Approximation [23.0232418013817]
まず,重ボールモーメントを線形関数でパラメータ化した批判再帰に組み込むことにより,モーメントに基づくベネフィット・アクター・クリティカル(mboxHB-A2C)アルゴリズムを提案する。
理論的には,提案したHB-A2Cは,マルコフ雑音を伴う強化学習タスクに,$ooepsilon$-approximate stationary pointと$ooepsilon-2$ iterationsを付与することがわかった。
論文 参考訳(メタデータ) (2024-08-13T15:03:46Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Yet Another Algorithm for Supervised Principal Component Analysis:
Supervised Linear Centroid-Encoder [1.2487990897680423]
SLCE(Supervised Linear Centroid-Encoder)と呼ばれる新しい教師付き次元減少手法を提案する。
SLCEは、線形変換を用いて、クラスのサンプルをそのクラスセントロイドにマッピングすることで機能する。
論文 参考訳(メタデータ) (2023-06-07T17:52:29Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A Refined Inertial DCA for DC Programming [0.0]
目的関数がレベル境界である定常型(dc)プログラミング問題を考える。
古典的なDCアルゴリズム(DCA)は、ある種の問題を解決することで知られており、臨界点を返す。
そこで本研究では,2つの改良型DCA(RInDCA)を提案する。
論文 参考訳(メタデータ) (2021-04-30T04:21:57Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。