論文の概要: Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem
- arxiv url: http://arxiv.org/abs/2604.06837v1
- Date: Wed, 08 Apr 2026 08:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.440612
- Title: Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem
- Title(参考訳): マルコフ決定問題に対するLp-Norm重み付き軟弱ベルマン残差最小化の収縮アライメント解析
- Authors: Hyukjun Yang, Han-Dong Lim, Donghwan Lee,
- Abstract要約: ベルマン残差最小化のソフトな定式化を検討し、一般化された重み付きLp-ノルムに拡張する。
p が増加するにつれて、この定式化はベルマン作用素の縮約幾何と最適化目標を一致させることを示す。
本分析は,残差最小化とベルマン縮約の原理的接続を提供し,誤差伝搬の制御を改良する。
- 参考スコア(独自算出の注目度): 9.333190920811626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of solving Markov decision processes under function approximation remains a fundamental challenge, even under linear function approximation settings. A key difficulty arises from a geometric mismatch: while the Bellman optimality operator is contractive in the Linfty-norm, commonly used objectives such as projected value iteration and Bellman residual minimization rely on L2-based formulations. To enable gradient-based optimization, we consider a soft formulation of Bellman residual minimization and extend it to a generalized weighted Lp -norm. We show that this formulation aligns the optimization objective with the contraction geometry of the Bellman operator as p increases, and derive corresponding performance error bounds. Our analysis provides a principled connection between residual minimization and Bellman contraction, leading to improved control of error propagation while remaining compatible with gradient-based optimization.
- Abstract(参考訳): 関数近似の下でマルコフ決定過程を解く問題は、線形関数近似の設定下でさえも根本的な課題である。
ベルマン最適性作用素は Linfty-ノルム において収縮的であるが、射影値反復やベルマン残差最小化のような一般的に用いられる目的は L2 ベースの定式化に依存している。
勾配に基づく最適化を実現するため、ベルマン残差最小化のソフトな定式化を検討し、一般化された重み付きLp-ノルムに拡張する。
この定式化は、pが増加するにつれてベルマン作用素の収縮幾何と最適化目標を一致させ、対応する性能誤差境界を導出することを示す。
我々の分析は,残差最小化とベルマン縮合の原理的接続を提供し,勾配に基づく最適化との相性を維持しつつ,誤差伝播の制御を改善した。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Analysis of Control Bellman Residual Minimization for Markov Decision Problem [6.622208195193136]
ベルマン残差最小化は、正方形ベルマン残差目的関数を最小化するために用いられる。
政策最適化のためのベルマン残差最小化制御の基礎的結果を確立する。
論文 参考訳(メタデータ) (2026-01-26T10:58:27Z) - Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Fractional-Boundary-Regularized Deep Galerkin Method for Variational Inequalities in Mixed Optimal Stopping and Control [3.514024064150887]
混合最適停止問題と制御問題により、非線型ハミルトン・ヤコビ・ベルマン作用素の変分不等式が定義される。
まず、双対アプローチを用いて線形作用素に変換し、次にフラクショナル境界規則化Deep Galerkin法を導入する。
改良された精度により、ネットワークはデュアルトランスフォーメーションを使用して元のソリューションに変換される。
論文 参考訳(メタデータ) (2025-05-25T20:49:00Z) - Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [9.788112471288057]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
凸プログラミング問題に対する最適パラメトリック解を特徴付ける。
必要かつ十分な条件を導出することにより、両スキームがグローバルな最適解を保証できることが示される。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。