論文の概要: The Confusing Instance Principle for Online Linear Quadratic Control
- arxiv url: http://arxiv.org/abs/2510.19531v1
- Date: Wed, 22 Oct 2025 12:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.763544
- Title: The Confusing Instance Principle for Online Linear Quadratic Control
- Title(参考訳): オンライン線形二次制御における紛らわしいインスタンス原理
- Authors: Waris Radji, Odalric-Ambrym Maillard,
- Abstract要約: モデルに基づく強化学習を用いて、未知のダイナミクスの下で2次コストで線形系を制御するという問題を再考する。
我々は,MAB や離散決定過程において,後悔の少ない下位境界を基盤とする Confusing Instance (CI) 原則に基づく代替案を提案する。
感度・安定性解析とともにLQRポリシの構造を活用することで,MED-LQを開発した。この新たな制御戦略は,CIとMEDの原則を小規模設定を超えて拡張する。
- 参考スコア(独自算出の注目度): 6.896797484250302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the problem of controlling linear systems with quadratic cost under unknown dynamics with model-based reinforcement learning. Traditional methods like Optimism in the Face of Uncertainty and Thompson Sampling, rooted in multi-armed bandits (MABs), face practical limitations. In contrast, we propose an alternative based on the Confusing Instance (CI) principle, which underpins regret lower bounds in MABs and discrete Markov Decision Processes (MDPs) and is central to the Minimum Empirical Divergence (MED) family of algorithms, known for their asymptotic optimality in various settings. By leveraging the structure of LQR policies along with sensitivity and stability analysis, we develop MED-LQ. This novel control strategy extends the principles of CI and MED beyond small-scale settings. Our benchmarks on a comprehensive control suite demonstrate that MED-LQ achieves competitive performance in various scenarios while highlighting its potential for broader applications in large-scale MDPs.
- Abstract(参考訳): モデルに基づく強化学習を用いて、未知のダイナミクスの下で2次コストで線形システムを制御するという問題を再考する。
オプティミズム・イン・ザ・フェイス・オブ・不確実性とトンプソン・サンプリング(英語版)のような伝統的手法は、マルチアーマード・バンディット(MAB)に根ざしており、実用的な制限に直面している。
一方,MED(Minimum Empirical Divergence, MED)アルゴリズムでは,MABや離散マルコフ決定過程(MDP)の低次境界の誤りを補うために,CI(Confusing Instance)の原理に基づく代替法を提案する。
感度・安定性解析とともにLQRポリシの構造を活用することにより,MED-LQを開発した。
この新たなコントロール戦略は、CIとMEDの原則を小規模な設定を超えて拡張します。
MED-LQ は様々なシナリオにおいて,大規模 MDP における広範なアプリケーションの可能性を強調しながら,競争性能を向上することを示した。
関連論文リスト
- Better LMO-based Momentum Methods with Second-Order Information [48.580700968416444]
Hessian-Corrected Momentum (HCM) は運動量収束率の向上を目的としている。
Hessian-Corrected Momentum は問題の幾何学に適応し、従来の運動量よりも速い速度を達成することができる。
我々はHCMを統合することでLinear Minimization Oracleフレームワークを拡張し、緩和された滑らかさと任意の規範設定の下で収束保証を提供する。
論文 参考訳(メタデータ) (2025-12-15T11:43:09Z) - On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。
我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文 参考訳(メタデータ) (2025-09-20T17:14:27Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Solving Finite-Horizon MDPs via Low-Rank Tensors [9.072279909866845]
有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。
有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。
本稿では,有限ホライゾン MDP の VF を低ランクテンソルとしてモデル化することを提案する。
論文 参考訳(メタデータ) (2025-01-17T23:10:50Z) - Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。
我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文 参考訳(メタデータ) (2024-08-16T19:52:53Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。