論文の概要: A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning
- arxiv url: http://arxiv.org/abs/2501.01774v2
- Date: Thu, 13 Feb 2025 03:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:12.398290
- Title: A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning
- Title(参考訳): 行列分割とプレコンディショニングによるオフポリシィRLの線形関数近似の統一的視点
- Authors: Zechen Wu, Amy Greenwald, Ronald Parr,
- Abstract要約: 我々は線形値関数近似に注目し、新しい視点を提供する。
目的値関数で更新数を増やすことは、基本的には定型プリコンディショナーからデータ機能適応型プリコンディショナーへの移行を表す。
この統一的な視点は、これらのアルゴリズムの収束条件の分析を単純化する。
- 参考スコア(独自算出の注目度): 6.827423171182153
- License:
- Abstract: Traditionally, TD and FQI are viewed as differing in the number of updates toward the target value function: TD makes one update, FQI makes an infinite number, and Partial Fitted Q-Iteration (PFQI) performs a finite number, such as the use of a target network in Deep Q-Networks (DQN) in the OPE setting. This perspective, however, fails to capture the convergence connections between these algorithms and may lead to incorrect conclusions, for example, that the convergence of TD implies the convergence of FQI. In this paper, we focus on linear value function approximation and offer a new perspective, unifying TD, FQI, and PFQI as the same iterative method for solving the Least Squares Temporal Difference (LSTD) system, but using different preconditioners and matrix splitting schemes. TD uses a constant preconditioner, FQI employs a data-feature adaptive preconditioner, and PFQI transitions between the two. Then, we reveal that in the context of linear function approximation, increasing the number of updates under the same target value function essentially represents a transition from using a constant preconditioner to data-feature adaptive preconditioner. This unifying perspective also simplifies the analyses of the convergence conditions for these algorithms and clarifies many issues. Consequently, we fully characterize the convergence of each algorithm without assuming specific properties of the chosen features (e.g., linear independence). We also examine how common assumptions about feature representations affect convergence, and discover new conditions on features that are important for convergence. These convergence conditions allow us to establish the convergence connections between these algorithms and to address important questions.
- Abstract(参考訳): 伝統的に、TDとFQIは目標値関数に対する更新数が異なると見なされる: TDは1回の更新を行い、FQIは無限個の更新を行い、PFQI(Partial Fitted Q-Iteration)はOPE設定におけるDeep Q-Networks(DQN)におけるターゲットネットワークの使用のような有限個の数を実行する。
しかし、この観点ではこれらのアルゴリズム間の収束接続を捉えることができず、例えば、TD の収束は FQI の収束を意味するという誤った結論につながる可能性がある。
本稿では,線形値関数近似に着目し,TD,FQI,PFQIをLSTD(Last Squares Temporal difference)システムと同一の反復法として統合する。
TDは定数プリコンディショナーを使用し、FQIはデータ機能適応プリコンディショナーを使用し、PFQIは両者の間で遷移する。
そして、線形関数近似の文脈において、同じ目標値関数の下で更新数を増やすことは、基本的には定型プレコンディショナーからデータ機能適応プリコンディショナーへの移行を表す。
この統一的な視点は、これらのアルゴリズムの収束条件の分析を単純化し、多くの問題を明らかにする。
その結果、選択した特徴(例えば線形独立性)の特定の性質を仮定することなく、各アルゴリズムの収束を完全に特徴づける。
また、特徴表現に関する一般的な仮定が収束にどのように影響するかを考察し、収束に重要な特徴に関する新しい条件を発見する。
これらの収束条件は、これらのアルゴリズム間の収束接続を確立し、重要な問題に対処することを可能にする。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation [47.08004958269403]
オフ・プライシ・データにおいても,ブートストラップ値推定の収束条件が弱くなることを証明する。
計算結果をトラジェクトリによる学習に拡張し、小さな修正を施した全てのタスクに対して収束が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:36:16Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - On the Convergence of AdaGrad(Norm) on $\R^{d}$: Beyond Convexity,
Non-Asymptotic Rate and Acceleration [33.247600151322466]
我々は、滑らかな凸関数の標準設定において、AdaGradとその変種についてより深く理解する。
まず、制約のない問題に対して、バニラ AdaGrad の収束率を明示的に拘束する新しい手法を示す。
第二に、平均的な反復ではなく、最後の反復の収束を示すことのできる AdaGrad の変種を提案する。
論文 参考訳(メタデータ) (2022-09-29T14:44:40Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Distributed gradient-based optimization in the presence of dependent
aperiodic communication [4.34720256795424]
反復分散最適化アルゴリズムは、グローバルな目的を最小化/最大化するために、時間とともに相互に通信する複数のエージェントを含む。
信頼できない通信網の存在下では、受信したデータの鮮度を測定するAOI( Age-of-Information)は、大きくなり、アルゴリズムの収束を妨げる可能性がある。
AoIプロセスに付随する確率変数が有限な第一モーメントを持つ確率変数に支配されている場合、収束が保証されることを示す。
論文 参考訳(メタデータ) (2022-01-27T06:44:04Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Better Regularization for Sequential Decision Spaces: Fast Convergence
Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。
正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文 参考訳(メタデータ) (2021-05-27T06:10:24Z) - The Convergence Indicator: Improved and completely characterized
parameter bounds for actual convergence of Particle Swarm Optimization [68.8204255655161]
我々は、粒子が最終的に単一点に収束するか、分岐するかを計算するのに使用できる新しい収束指標を導入する。
この収束指標を用いて、収束群につながるパラメータ領域を完全に特徴づける実際の境界を提供する。
論文 参考訳(メタデータ) (2020-06-06T19:08:05Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。