Fugu-MT 論文翻訳(概要): Deep Q-learning: a robust control approach

論文の概要: Deep Q-learning: a robust control approach

arxiv url: http://arxiv.org/abs/2201.08610v1
Date: Fri, 21 Jan 2022 09:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-24 14:24:32.791783
Title: Deep Q-learning: a robust control approach
Title（参考訳）: deep q-learning: 堅牢な制御アプローチ
Authors: Bal\'azs Varga, Bal\'azs Kulcs\'ar, Morteza Haghir Chehreghani
Abstract要約: ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。 OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
参考スコア（独自算出の注目度）: 4.125187280299247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we place deep Q-learning into a control-oriented perspective and study its learning dynamics with well-established techniques from robust control. We formulate an uncertain linear time-invariant model by means of the neural tangent kernel to describe learning. We show the instability of learning and analyze the agent's behavior in frequency-domain. Then, we ensure convergence via robust controllers acting as dynamical rewards in the loss function. We synthesize three controllers: state-feedback gain scheduling $\mathcal{H}_2$, dynamic $\mathcal{H}_\infty$, and constant gain $\mathcal{H}_\infty$ controllers. Setting up the learning agent with a control-oriented tuning methodology is more transparent and has well-established literature compared to the heuristics in reinforcement learning. In addition, our approach does not use a target network and randomized replay memory. The role of the target network is overtaken by the control input, which also exploits the temporal dependency of samples (opposed to a randomized memory buffer). Numerical simulations in different OpenAI Gym environments suggest that the $\mathcal{H}_\infty$ controlled learning performs slightly better than Double deep Q-learning.
Abstract（参考訳）: 本稿では,深いQ-ラーニングを制御指向の視点に置き,その学習力学を頑健な制御から確立した手法を用いて研究する。ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。そして、損失関数の動的報酬として機能するロバストコントローラによる収束を保証する。我々は3つのコントローラを合成する: state-feedback gain scheduling $\mathcal{h}_2$, dynamic $\mathcal{h}_\infty$, constant gain $\mathcal{h}_\infty$ controllers。制御指向チューニング手法による学習エージェントのセットアップは,強化学習のヒューリスティックよりも透明性が高く,文献の確立も良好である。さらに,本手法では,ターゲットネットワークとランダムなリプレイメモリを使用しない。ターゲットネットワークの役割は制御入力によって超過され、サンプルの時間依存性(ランダム化されたメモリバッファに反する)も活用される。異なるOpenAI Gym環境における数値シミュレーションにより、$\mathcal{H}_\infty$制御学習は二重深度Q-ラーニングよりもわずかに優れていることが示唆された。

関連論文リスト

Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion [17.905596843865705]
連続時間システムのための制御器とリアプノフ関数を協調的に合成する新しい2段階学習フレームワークを提案する。 SMTソルバに頼ってリアプノフ条件を正式に検証する既存のシステムとは異なり、最先端のニューラルネットワーク検証器$alpha,!
論文参考訳（メタデータ） (2025-06-02T06:20:09Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文参考訳（メタデータ） (2023-06-29T12:47:28Z)
Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文参考訳（メタデータ） (2023-06-09T18:40:55Z)
CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文参考訳（メタデータ） (2022-12-02T17:59:43Z)
Improving the Performance of Robust Control through Event-Triggered Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文参考訳（メタデータ） (2022-07-28T17:36:37Z)
Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文参考訳（メタデータ） (2022-07-26T17:54:49Z)
Finite-time System Identification and Adaptive Control in Autoregressive Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文参考訳（メタデータ） (2021-08-26T18:00:00Z)
Online-Learning Deep Neuro-Adaptive Dynamic Inversion Controller for Model Free Control [1.3764085113103217]
ニュートラル適応コントローラは、新しい重み更新法則に基づいて訓練されたディープニューラルネットワークを特徴とする実装である。制御器は、非線形プラントを迅速に学習することができ、追従制御問題において優れた性能を示す。
論文参考訳（メタデータ） (2021-07-21T22:46:03Z)
Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。 PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文参考訳（メタデータ） (2020-12-29T09:01:47Z)
Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。 AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文参考訳（メタデータ） (2020-03-25T06:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。