論文の概要: Sample Complexity of Policy Gradient for Log-Growth Control
- arxiv url: http://arxiv.org/abs/2605.26640v1
- Date: Tue, 26 May 2026 07:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.724854
- Title: Sample Complexity of Policy Gradient for Log-Growth Control
- Title(参考訳): ロググロース制御のための政策勾配のサンプル複雑度
- Authors: Qiuhua Pan, Yukai Shen, Liwei Zhang, Cailian Chen, Xinping Guan,
- Abstract要約: ログ成長制御のためのポリシ勾配のサンプル複雑性について検討する。
予測されたミニバッチポリシー勾配が全サンプルの複雑さを実現することを証明した。
- 参考スコア(独自算出の注目度): 23.86784769848408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of policy gradient for log-growth control -- the problem of learning, from observed state transitions, a feedback gain that optimally stabilizes a scalar linear system driven through a multiplicative-noise actuation channel. The objective $J(K) = \mathbb{E}[\log|1+BK|]$ is the top Lyapunov exponent of the closed loop. This problem carries a structural difficulty we call the cusp obstruction: the optimal gain $K^*$ always places the noise singularity $b_{\rm sing}(K) = -1/K$ in the interior of the support. At this singular optimum the policy gradient exists only as a Cauchy principal value, not as a Lebesgue integral, and the natural single-sample gradient estimator has infinite variance. Standard first-order stochastic-optimization analysis is thus inapplicable at the optimum, and merely smoothing the objective does not resolve the difficulty. The obstruction, however, has an exploitable symmetry: the Cauchy kernel is an odd function of the displacement from the moving pole, so pairing each observation with its reflection through the pole cancels the divergent part. This one cancellation simultaneously controls the population curvature, the gradient-estimator variance, and the bias incurred when the noise density is estimated. Combining these bounds with a closed-form single-transition gradient oracle, we prove that projected mini-batch policy gradient, initialized in any compact subset of the stabilizing region, attains total sample complexity $\tilde{O}(1/η)$ when the noise density is known and $\tilde{O}(η^{-(2s+1)/(2s)})$ when it must be estimated, for $C^s$ noise densities with $s \geq 2$.
- Abstract(参考訳): 対数成長制御のための政策勾配のサンプル複雑性について検討し、観測状態遷移から学習の問題、乗算-雑音アクチュエータチャネルを駆動するスカラー線形系を最適に安定化するフィードバックゲインについて検討した。
目的$J(K) = \mathbb{E}[\log|1+BK|]$ は閉ループの最上位のリャプノフ指数である。
最適ゲイン$K^*$は常にノイズ特異点$b_{\rm sing}(K) = -1/K$をサポートの内部に配置します。
この特異な最適化において、ポリシー勾配はルベーグ積分としてではなくコーシーの主値としてのみ存在し、自然な単サンプル勾配推定器は無限分散を持つ。
したがって、標準的な一階確率最適化解析は最適に適用できず、単に目的を滑らかにすることは困難を解決しない。
コーシー核は移動極からの変位の奇関数であり、各観測と極を通る反射とのペアリングは発散部をキャンセルする。
このキャンセルは、ノイズ密度の推定時に発生する集団曲率、勾配推定器のばらつき、バイアスを同時に制御する。
これらの境界を閉形式単一遷移勾配オラクルと組み合わせることで、安定化領域の任意のコンパクト部分集合で初期化される射影されたミニバッチポリシー勾配が、ノイズ密度が知られているときの合計サンプル複雑性$\tilde{O}(1/η)$と、推定が必要なときの$\tilde{O}(η^{-(2s+1)/(2s)}$と、$s \geq 2$のノイズ密度$C^s$であることを示す。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Discrete Double-Bracket Flows for Isotropic-Noise Invariant Eigendecomposition [7.186083931122418]
本研究では,行列ベクトル積 (MVP) のオラクルによる行列フリー固有分解について検討した。
標準的な近似法では、安定性を$|C_k|$に結合する固定ステップを使用するか、あるいは更新の消滅によって遅くなる適応ステップを使用する。
対角化目標と入力-状態安定性解析のための厳密なサドルと、トレースフリーな摂動の下での複雑さのスケーリングを$O(|C_e|2 / (2))$とすることで、グローバル収束を確立する。
論文 参考訳(メタデータ) (2026-02-14T13:09:29Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Achieving the Asymptotically Optimal Sample Complexity of Offline Reinforcement Learning: A DRO-Based Approach [36.88301225561535]
オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから学習することを目的としている。
既存のアプローチでは、不確実性に対する悲観的なスタンスを採用し、探索されていない状態-作用対の報酬を、保守的に値関数を推定する。
分散ロバスト最適化(DRO)に基づくアプローチはこれらの課題にも対処でき、漸近的に最小限の最適化であることを示す。
論文 参考訳(メタデータ) (2023-05-22T17:50:18Z) - Randomized Coordinate Subgradient Method for Nonsmooth Composite
Optimization [11.017632675093628]
非滑らかな問題に対処するコーディネート型劣階法は、リプシッツ型仮定の性質のセットのため、比較的過小評価されている。
論文 参考訳(メタデータ) (2022-06-30T02:17:11Z) - A gradient estimator via L1-randomization for online zero-order
optimization with two point feedback [93.57603470949266]
2つの関数評価とランダム化に基づく新しい勾配推定器を提案する。
ゼロ次オラクルの雑音に対する仮定は,ノイズのキャンセルと逆方向雑音の2種類について考察する。
我々は、問題の全てのパラメータに適応する、いつでも完全にデータ駆動のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-05-27T11:23:57Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。