論文の概要: Control-Tutored Reinforcement Learning: Towards the Integration of
Data-Driven and Model-Based Control
- arxiv url: http://arxiv.org/abs/2112.06018v1
- Date: Sat, 11 Dec 2021 16:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 19:16:52.704819
- Title: Control-Tutored Reinforcement Learning: Towards the Integration of
Data-Driven and Model-Based Control
- Title(参考訳): データ駆動型制御とモデルベース制御の統合を目指して
- Authors: F. De Lellis, M. Coraggio, G. Russo, M. Musolesi, M. di Bernardo
- Abstract要約: 本稿では,環境の近似モデルに基づくフィードバックコントローラが学習プロセスを支援し,そのデータ効率を向上させるアーキテクチャを提案する。
このアーキテクチャは、制御チューニングQ-ラーニング(CTQL)と呼ばれ、2つの代替フレーバーで表現される。
前者は報奨関数の定義に基づいて、ブーリアン条件を用いて制御チューターポリシーが採用されるタイミングを決定する。
後者は確率的CTQL(pCTQL)と呼ばれ、学習中に特定の確率でチューターへの呼び出しを実行することに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an architecture where a feedback controller derived on an
approximate model of the environment assists the learning process to enhance
its data efficiency. This architecture, which we term as Control-Tutored
Q-learning (CTQL), is presented in two alternative flavours. The former is
based on defining the reward function so that a Boolean condition can be used
to determine when the control tutor policy is adopted, while the latter, termed
as probabilistic CTQL (pCTQL), is instead based on executing calls to the tutor
with a certain probability during learning. Both approaches are validated, and
thoroughly benchmarked against Q-Learning, by considering the stabilization of
an inverted pendulum as defined in OpenAI Gym as a representative problem.
- Abstract(参考訳): 本稿では,環境の近似モデルに基づくフィードバックコントローラが学習プロセスを支援し,そのデータ効率を向上させるアーキテクチャを提案する。
このアーキテクチャは、制御チューニングQラーニング(CTQL)と呼ばれ、2つの代替フレーバーで表現される。
前者は報奨関数の定義に基づいて、制御チューターポリシーがいつ採用されるかを決定するためにブール条件を使用することができるが、後者は確率CTQL(probabilistic CTQL)と呼ばれ、学習中に特定の確率でチューターへの呼び出しを実行することに基づいている。
どちらのアプローチも検証され、OpenAI Gymで定義された倒立振子の安定化を代表問題として、Q-Learningに対して徹底的にベンチマークされる。
関連論文リスト
- How to discretize continuous state-action spaces in Q-learning: A symbolic control approach [0.0]
本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。
この課題に対処するために,行動関係を表す記号モデルを提案する。
この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-06-03T17:30:42Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences [16.828732283348817]
オフライン学習に基づく異常検出(OIL-AD)と呼ばれる教師なし手法を提案する。
OIL-ADは2つの抽出された行動特徴(行動最適性と順序関連)を用いて、意思決定シーケンスの異常を検出する。
実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-07T04:06:53Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach [3.7728340443952577]
提案する枠組みは,2つある: (i) 活発な探索と意図的な情報収集を伴う強化学習, (i) ミスマッチのモデル化による状態と不確実性を制御し, (ii) 最適制御の膨大な計算コストを克服する。
我々は、強化学習を用いて最適制御法を達成することにより、両方の目的にアプローチする。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。