論文の概要: Switching-Geometry Analysis of Deflated Q-Value Iteration
- arxiv url: http://arxiv.org/abs/2605.10811v2
- Date: Mon, 18 May 2026 17:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.259067
- Title: Switching-Geometry Analysis of Deflated Q-Value Iteration
- Title(参考訳): 拡散Q値反復のスイッチング・ジオメトリ解析
- Authors: Donghwan Lee,
- Abstract要約: 本稿では, 政策最適化問題に対する拡張Q-VIの最初のJSRベースの収束解析について述べる。
デフレの利点は、引き起こされた意思決定の問題の変化ではなく、より正確なJSRベースの収束幾何学の記述である。
- 参考スコア(独自算出の注目度): 7.8232617281369805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a joint spectral radius (JSR) framework for analyzing rank-one deflated Q-value iteration (Q-VI) in discounted Markov decision process control. Focusing on an all-ones residual correction, we interpret the resulting algorithm through the geometry of switching systems and, to the best of our knowledge, give the first JSR-based convergence analysis of deflated Q-VI for policy optimization problems. Our analysis reveals that the standard Q-VI switching system model has JSR exactly the discount factor $γ\in (0,1)$, since all admissible subsystems share the all-ones vector as an invariant direction. By passing to the quotient space that removes this direction, we obtain a projected switching system model whose JSR governs the relevant error dynamics and may be strictly smaller than $γ$. Therefore, the deflated Q-VI admits a potentially sharper convergence-rate characterization than the ambient-space $γ$-bound. Finally, we prove that the correction is equivalent to a scalar recentering of standard Q-VI. Hence, the projected trajectory, and therefore the greedy-policy sequence, is unchanged relative to standard Q-VI initialized from the same point. The benefit of deflation is not a change in the induced decision-making problem, but a more precise JSR-based description of the convergence geometry after the redundant all-ones component is removed.
- Abstract(参考訳): 本稿では、マルコフ決定過程制御におけるランクワンデフレーションQ値反復(Q-VI)の解析のための共同スペクトル半径(JSR)フレームワークを開発する。
残差補正に焦点をあてて、スイッチングシステムの幾何学を通して結果のアルゴリズムを解釈し、私たちの知る限り、政策最適化問題に対して、最初のJSRベースのQ-VI収束解析を与える。
解析の結果,標準的なQ-VIスイッチングシステムモデルでは,すべての許容サブシステムが全対数ベクトルを不変方向として共有するため,JSRが正確に$γ\in (0,1)$の割引係数を持つことが明らかとなった。
この方向を取り除いた商空間に渡すことで、JSRが関連するエラーダイナミクスを制御し、$γ$より厳密に小さいかもしれない、投影された切替システムモデルを得る。
したがって、膨らんだ Q-VI は、周囲空間 $γ$-bound よりも、潜在的によりシャープな収束率の特性を持つ。
最後に、補正は標準Q-VIのスカラー更新と等価であることを示す。
したがって、投影された軌道、すなわち欲求政治列は、同じ点から初期化された標準Q-VIに対して変化しない。
デフレの利点は、引き起こされた意思決定の問題の変化ではなく、冗長なオールオンコンポーネントの後に、より正確なJSRベースの収束幾何学の記述が削除されます。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Qracle: A Graph-Neural-Network-based Parameter Initializer for Variational Quantum Eigensolvers [9.785423342956616]
変分量子固有解法(VQE)のためのグラフニューラルネットワーク(GNN)に基づくパラメータ初期化器である textitQracle を提案する。
textitQracleは、初期損失の最大10.86ドルを減らし、最適化手順の最大6.42%を減らして収束を加速し、SMAPE(Symmetric Mean Absolute Percentage Error)の最大26.43%を減らして最終性能を改善する。
論文 参考訳(メタデータ) (2025-05-02T12:56:02Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Accelerated Optimization Landscape of Linear-Quadratic Regulator [0.0]
Nest-quadratic regulator (LQR) は最適制御の分野で目覚ましい問題である。
LQR のリプシッツ・ヘッセン性を示す。
オイラースキームはハイブリッド力学系を識別するために用いられる。
論文 参考訳(メタデータ) (2023-07-07T13:34:27Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。