論文の概要: A Theoretical Justification for Asymmetric Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2501.19116v1
- Date: Fri, 31 Jan 2025 13:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:28.662803
- Title: A Theoretical Justification for Asymmetric Actor-Critic Algorithms
- Title(参考訳): 非対称アクター臨界アルゴリズムの理論的正当性
- Authors: Gaspard Lambrechts, Damien Ernst, Aditya Mahajan,
- Abstract要約: 線形関数近似器を用いた非対称アクター批判アルゴリズムの正当性を提案する。
結果の有限時間境界は、非対称な批評家がエージェント状態のエイリアスから生じる誤り項を排除していることを示している。
- 参考スコア(独自算出の注目度): 2.9071167862893605
- License:
- Abstract: In reinforcement learning for partially observable environments, many successful algorithms were developed within the asymmetric learning paradigm. This paradigm leverages additional state information available at training time for faster learning. Although the proposed learning objectives are usually theoretically sound, these methods still lack a theoretical justification for their potential benefits. We propose such a justification for asymmetric actor-critic algorithms with linear function approximators by adapting a finite-time convergence analysis to this setting. The resulting finite-time bound reveals that the asymmetric critic eliminates an error term arising from aliasing in the agent state.
- Abstract(参考訳): 部分的に観測可能な環境に対する強化学習では、非対称学習パラダイム内で多くの成功したアルゴリズムが開発された。
このパラダイムは、学習の高速化のために、トレーニング時に利用可能な追加のステート情報を活用する。
提案された学習目的は通常理論上は健全であるが、これらの手法にはその潜在的な利益に対する理論的正当化が欠けている。
本稿では, 線形関数近似器を用いた非対称アクター批判アルゴリズムに対する有限時間収束解析の適用による正当化を提案する。
結果の有限時間境界は、非対称な批評家がエージェント状態のエイリアスから生じる誤り項を排除していることを示している。
関連論文リスト
- Certified algorithms for quantum Hamiltonian learning via energy-entropy inequalities [9.349653765341301]
ギブス状態期待値の推定から量子系のハミルトニアンを学習する問題を考察する。
我々は、学習すべきパラメータの下位および上位境界を認定するために、これを拡張することによって、この作業の上に構築する。
論文 参考訳(メタデータ) (2024-10-30T17:58:52Z) - The Stochastic Proximal Distance Algorithm [5.3315823983402755]
本稿では,所望の制約付き推定問題をペナルティパラメータとして回復する反復最適化手法のクラスを提案し,解析する。
我々は、最近の理論装置を拡張して有限誤差境界を確立し、収束率の完全な評価を行う。
また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T22:07:28Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Neural Network Training with Asymmetric Crosspoint Elements [1.0773924713784704]
実用的な抵抗装置の非対称コンダクタンス変調は、従来のアルゴリズムで訓練されたネットワークの分類を著しく劣化させる。
ここでは、ハミルトニアン Descent という代替の完全並列トレーニングアルゴリズムを記述し、実験的に示す。
我々は、なぜデバイス非対称性が従来のトレーニングアルゴリズムと根本的に相容れないのか、新しいアプローチがどのようにそれを有用な機能として利用するのか、という批判的な直感を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:41:36Z) - Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning [17.48572546628464]
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
論文 参考訳(メタデータ) (2021-05-25T05:18:44Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Study of Diffusion Normalized Least Mean M-estimate Algorithms [0.8749675983608171]
本研究では,修正ハマー関数に基づく拡散正規化最小平均M推定アルゴリズムを提案する。
我々は,アルゴリズムの過渡的,定常的,安定的な挙動を統一的なフレームワークで解析する。
様々なインパルスノイズシナリオのシミュレーションでは、提案アルゴリズムは既存の拡散アルゴリズムよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-20T00:28:41Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。