Fugu-MT 論文翻訳(概要): The Confusing Instance Principle for Online Linear Quadratic Control

論文の概要: The Confusing Instance Principle for Online Linear Quadratic Control

arxiv url: http://arxiv.org/abs/2510.19531v1
Date: Wed, 22 Oct 2025 12:38:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:15.763544
Title: The Confusing Instance Principle for Online Linear Quadratic Control
Title（参考訳）: オンライン線形二次制御における紛らわしいインスタンス原理
Authors: Waris Radji, Odalric-Ambrym Maillard,
Abstract要約: モデルに基づく強化学習を用いて、未知のダイナミクスの下で2次コストで線形系を制御するという問題を再考する。我々は,MAB や離散決定過程において,後悔の少ない下位境界を基盤とする Confusing Instance (CI) 原則に基づく代替案を提案する。感度・安定性解析とともにLQRポリシの構造を活用することで,MED-LQを開発した。この新たな制御戦略は,CIとMEDの原則を小規模設定を超えて拡張する。
参考スコア（独自算出の注目度）: 6.896797484250302
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We revisit the problem of controlling linear systems with quadratic cost under unknown dynamics with model-based reinforcement learning. Traditional methods like Optimism in the Face of Uncertainty and Thompson Sampling, rooted in multi-armed bandits (MABs), face practical limitations. In contrast, we propose an alternative based on the Confusing Instance (CI) principle, which underpins regret lower bounds in MABs and discrete Markov Decision Processes (MDPs) and is central to the Minimum Empirical Divergence (MED) family of algorithms, known for their asymptotic optimality in various settings. By leveraging the structure of LQR policies along with sensitivity and stability analysis, we develop MED-LQ. This novel control strategy extends the principles of CI and MED beyond small-scale settings. Our benchmarks on a comprehensive control suite demonstrate that MED-LQ achieves competitive performance in various scenarios while highlighting its potential for broader applications in large-scale MDPs.
Abstract（参考訳）: モデルに基づく強化学習を用いて、未知のダイナミクスの下で2次コストで線形システムを制御するという問題を再考する。オプティミズム・イン・ザ・フェイス・オブ・不確実性とトンプソン・サンプリング(英語版)のような伝統的手法は、マルチアーマード・バンディット(MAB)に根ざしており、実用的な制限に直面している。一方,MED(Minimum Empirical Divergence, MED)アルゴリズムでは,MABや離散マルコフ決定過程(MDP)の低次境界の誤りを補うために,CI(Confusing Instance)の原理に基づく代替法を提案する。感度・安定性解析とともにLQRポリシの構造を活用することにより,MED-LQを開発した。この新たなコントロール戦略は、CIとMEDの原則を小規模な設定を超えて拡張します。 MED-LQ は様々なシナリオにおいて,大規模 MDP における広範なアプリケーションの可能性を強調しながら,競争性能を向上することを示した。

関連論文リスト

On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文参考訳（メタデータ） (2025-09-20T17:14:27Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Solving Finite-Horizon MDPs via Low-Rank Tensors [9.072279909866845]
有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。本稿では,有限ホライゾン MDP の VF を低ランクテンソルとしてモデル化することを提案する。
論文参考訳（メタデータ） (2025-01-17T23:10:50Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文参考訳（メタデータ） (2020-11-15T22:36:59Z)
Parameterized MDPs and Reinforcement Learning Problems -- A Maximum Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文参考訳（メタデータ） (2020-06-17T04:08:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。