Fugu-MT 論文翻訳(概要): A Regret Minimization Approach to Iterative Learning Control

論文の概要: A Regret Minimization Approach to Iterative Learning Control

arxiv url: http://arxiv.org/abs/2102.13478v1
Date: Fri, 26 Feb 2021 13:48:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-01 13:58:20.698654
Title: A Regret Minimization Approach to Iterative Learning Control
Title（参考訳）: 反復学習制御への後悔最小化アプローチ
Authors: Naman Agarwal, Elad Hazan, Anirudha Majumdar, Karan Singh
Abstract要約: 我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
参考スコア（独自算出の注目度）: 61.37088759497583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the setting of iterative learning control, or model-based policy learning in the presence of uncertain, time-varying dynamics. In this setting, we propose a new performance metric, planning regret, which replaces the standard stochastic uncertainty assumptions with worst case regret. Based on recent advances in non-stochastic control, we design a new iterative algorithm for minimizing planning regret that is more robust to model mismatch and uncertainty. We provide theoretical and empirical evidence that the proposed algorithm outperforms existing methods on several benchmarks.
Abstract（参考訳）: 我々は,不確定な時間変動ダイナミクスが存在する場合,反復学習制御やモデルに基づく政策学習の設定を考える。本稿では,従来の確率的不確実性仮定を最悪のケース後悔に置き換え,後悔を計画する新たなパフォーマンス指標を提案する。非確率的制御の最近の進歩に基づき、ミスマッチや不確実性をモデル化する上でより堅牢な計画的後悔を最小化するための新しい反復アルゴリズムを設計する。提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。

関連論文リスト

On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文参考訳（メタデータ） (2025-09-20T17:14:27Z)
Transfer Learning for Classification under Decision Rule Drift with Application to Optimal Individualized Treatment Rule Estimation [50.34670342434884]
本研究では,ベイズ決定規則による後方ドリフトのモデル化手法を提案する。穏やかな規則性条件の下では、推定器の整合性を確立し、リスク境界を導出する。本稿では,最適な個別化処理ルールの推定に適応させることにより,本手法の幅広い適用性について述べる。
論文参考訳（メタデータ） (2025-08-28T16:03:06Z)
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文参考訳（メタデータ） (2024-07-24T12:26:21Z)
Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文参考訳（メタデータ） (2023-12-21T16:34:03Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation [5.147919654191323]
本稿では,制約指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。提案するフレームワークは、平面四重項の例で検証される。
論文参考訳（メタデータ） (2021-12-15T15:57:33Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。