論文の概要: Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration
- arxiv url: http://arxiv.org/abs/2604.17457v3
- Date: Mon, 27 Apr 2026 10:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.87864
- Title: Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration
- Title(参考訳): ベルマン固定点を超えて: 値反復における幾何と高速なポリシー同定
- Authors: Donghwan Lee,
- Abstract要約: スイッチングシステムとしてのディスカウントQ-VIについて検討する。
我々は,階層的欲求政策が最適である (Q) 関数の集合である実用的最適解集合 (POSS) に焦点を当てる。
- 参考スコア(独自算出の注目度): 7.8232617281369805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-value iteration (Q-VI) is usually analyzed through the \(γ\)-contraction of the Bellman operator. This argument proves convergence to \(Q^*\), but it gives only a coarse account of when the induced greedy policy becomes optimal. We study discounted Q-VI as a switching system and focus on the practically optimal solution set (POSS), the set of \(Q\)-functions whose tie-broken greedy policies are optimal. The main result shows that Q-VI reaches the optimal action class in finite time by entering an invariant tube around \(\mathcal X_1=Q^*+\operatorname{span}(\mathbf 1)\), which is contained in the POSS. For every \(\varepsilon>0\), the distance to \(\mathcal X_1\) satisfies an exponential bound with rate \((\barρ+\varepsilon)^k\), where \(\barρ\) is the joint spectral radius of the projected switching family restricted to directions transverse to \(\mathcal X_1\). When \(\barρ<γ\), this transverse convergence is faster than the classical contraction rate. The analysis separates fast policy identification from the subsequent convergence to \(Q^*\), which may still be governed by the all-ones mode. We also give spectral and graph-theoretic conditions under which the strict inequality \(\barρ<γ\) holds or fails.
- Abstract(参考訳): Q-値反復 (Q-VI) は通常ベルマン作用素の \(γ\)-コントラクションを通して解析される。
この議論は \(Q^*\) への収束を証明しているが、誘導された欲求政策が最適になったときの粗い説明しか示さない。
スイッチングシステムとしての割引Q-VIについて検討し, 最適解集合である実用的最適解集合 (POSS) に着目した。
主な結果から、Q-VI は POSS に含まれる不変管を \(\mathcal X_1=Q^*+\operatorname{span}(\mathbf 1)\) の周りに入力することで、有限時間で最適な作用クラスに達することが分かる。
すべての \(\varepsilon>0\) に対して、距離 \(\mathcal X_1\) は速度 \(\barρ+\varepsilon)^k\) の指数境界を満たす。
\(\barρ<γ\) の場合、この逆収束は古典的収縮速度よりも速い。
この分析は、高速なポリシーの識別とその後の収束とを分離し、これらは依然としてオールワンモードによって支配される。
また、厳密な不等式 \(\barρ<γ\) が成立または失敗するスペクトルおよびグラフ理論条件を与える。
関連論文リスト
- Optimistic Training and Convergence of Q-Learning -- Extended Version [0.0]
近年の研究では,線形関数近似を用いたQ-ラーニングが安定であることが示されている。
一次元の例は、トレーニングの難解なポリシーの下では、PBEに対する解決策がないことを示している。
基底が理想であるような例は、真の Q-函数が基底のスパンであるという意味で示される。
論文 参考訳(メタデータ) (2026-02-05T19:32:13Z) - A Polynomial-Time Algorithm for Variational Inequalities under the Minty Condition [77.76727425995186]
変分不等式(SVIs)の解決は、最適化の中心にある基礎的な問題である。
ほとんどの研究は、その難易度を損なう特定のサブクラスを彫刻することに重点を置いている。
論文 参考訳(メタデータ) (2025-04-04T13:24:41Z) - Sharpened Lazy Incremental Quasi-Newton Method [15.632456816019944]
SLIQN法(シャープエントラジインクリメンタル準ニュートン法)について紹介する。
明示的な超線型収束率と優れた経験的性能を、定価$O(d2)$コストで達成する。
実験では,他の準ニュートン変種よりもSLIQNの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-05-26T22:06:24Z) - A globally convergent fast iterative shrinkage-thresholding algorithm
with a new momentum factor for single and multi-objective convex optimization [0.0]
提案手法はまた,任意の$(a,b)$に対して,大域収束率$O(1/k2)$を持つことを示す。
様々な$(a,b)$で数値結果を報告し、これらの選択のいくつかが古典的な運動量因子よりも良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-11T04:26:00Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。