論文の概要: A Measure-Theoretic Finite-Sample Theory for Adaptive-Data Fitted Q-Iteration
- arxiv url: http://arxiv.org/abs/2605.05791v1
- Date: Thu, 07 May 2026 07:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.593841
- Title: A Measure-Theoretic Finite-Sample Theory for Adaptive-Data Fitted Q-Iteration
- Title(参考訳): 適応データ適合Q-Iterationのための測度論的有限サンプル理論
- Authors: Manuel Haussmann, Mustafa Mert Çelikok, Melih Kandemir,
- Abstract要約: 一般可測ボレル空間上の適合Q-イテレーション(FQI)の枠組みを開発する。
政策依存型データ収集におけるベルマン回帰一般化を逐次ラデマッハ複雑性が制御することを証明する。
これらの結果は、多くの現代のディープRLアルゴリズムの形式解析に必要な基礎を築いた。
- 参考スコア(独自算出の注目度): 14.808143352500531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) promises to revolutionize the control of complex nonlinear robotic systems, a profound gap persists between the heuristic success of model-free off-policy deep RL and the underlying theory, which remains largely confined to tabular or linearizable settings. We identify the cause of this gap as an emergent isolation of three traditions: (i) measure-theoretic MDP foundations on general spaces limit their analysis to exact dynamic programming and ignore all error sources of a learning process; (ii) deterministic error propagation analysis addresses the approximation error via concentrability coefficients without a finite-sample analysis of the estimation error; and (iii) PAC generalization bounds characterize the estimation errors of simplified topologies. We bridge these traditions with a unified theoretical framework for fitted Q-iteration (FQI) on general measurable Borel spaces. Our main result provides a finite-sample, adaptive-data performance bound by chaining measure-theoretic probability with Bellman-operator contraction in Banach spaces. We prove that sequential Rademacher complexity controls Bellman-regression generalization under policy-dependent data collection. We further extend this analysis to provide the first cumulative, pathwise online regret guarantee for FQI in continuous spaces. These results lay the necessary foundations for the formal analysis of many modern deep RL algorithms.
- Abstract(参考訳): 強化学習(RL)は複雑な非線形ロボットシステムの制御に革命をもたらすことを約束する一方で、モデルのない非政治的な深層RLのヒューリスティックな成功と、表や線形化可能な設定に限られる基礎理論の間には深いギャップが残っている。
我々はこのギャップの原因を、3つの伝統の創発的な孤立として認識する。
一 一般空間上の測度理論的MDPの基礎は、その解析を正確な動的プログラミングに制限し、学習過程のすべてのエラー源を無視する。
(II)決定論的誤差伝搬解析は、推定誤差の有限サンプル解析を伴わない集中係数による近似誤差に対処する。
(iii)PAC一般化境界は、単純化された位相の推定誤差を特徴づける。
これらの伝統を、一般可測ボレル空間上の適合Q-イテレーション(FQI)の統一的な理論的枠組みで橋渡しする。
我々の主な結果は、バナッハ空間におけるベルマン作用素の縮約による測度理論確率の連鎖による有限サンプル適応データ性能を提供する。
政策依存型データ収集におけるベルマン回帰一般化を逐次ラデマッハ複雑性が制御することを証明する。
この分析をさらに拡張し、連続空間におけるFQIに対する最初の累積的、パスワイズなオンライン後悔保証を提供する。
これらの結果は、多くの現代のディープRLアルゴリズムの形式解析に必要な基礎を築いた。
関連論文リスト
- PAC-Bayes Bounds for Gibbs Posteriors via Singular Learning Theory [10.93258787701145]
ギブス後方に対する明示的非漸近性PAC-Bayes一般化境界を導出する。
古典的な最悪ケースの複雑性境界は、大数の均一な法則に基づいているのとは異なり、我々の分析は、平均的な後続のリスク境界をもたらす。
論文 参考訳(メタデータ) (2026-04-19T03:00:18Z) - Finite-Sample Analysis of Nonlinear Independent Component Analysis:Sample Complexity and Identifiability Bounds [1.624454100511275]
独立成分分析(Independent Component Analysis, ICA)は、混合信号を独立したソースに分離することで、データの構造を解明するための基本的な教師なし学習手法である。
学習アルゴリズムの有限サンプル統計特性は未だよく理解されていない。
本稿では,ニューラルネットワークエンコーダを用いた非線形ICAの包括的有限サンプル解析について述べる。
論文 参考訳(メタデータ) (2026-04-10T01:15:27Z) - On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks [0.0]
凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習性特性を特徴付ける。
我々は,ミニバッチ降下(SGD)による深層ニューラルネットワーク(DNN)のトレーニングが,経験的リスクのグローバルな最適化を実現することを実証した。
条件付き一般化エントロピー測度に基づく一般化誤差に関する決定論的および確率的境界を導出する。
論文 参考訳(メタデータ) (2026-02-18T04:26:55Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。