論文の概要: PID-Inspired Inductive Biases for Deep Reinforcement Learning in
Partially Observable Control Tasks
- arxiv url: http://arxiv.org/abs/2307.05891v1
- Date: Wed, 12 Jul 2023 03:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:29:41.049840
- Title: PID-Inspired Inductive Biases for Deep Reinforcement Learning in
Partially Observable Control Tasks
- Title(参考訳): 部分可観測制御タスクにおける深層強化学習のためのpidインスパイアインダクティブバイアス
- Authors: Ian Char and Jeff Schneider
- Abstract要約: 深層強化学習は、データだけでシステムを制御できる大きな可能性を示している。
深いRLが直面する課題の1つは、システムの完全な状態がしばしば観測できないことである。
PID機能を直接使用するアーキテクチャと、これらのコアアイデアを拡張して任意の制御タスクで使用できるアーキテクチャの2つを提案する。
- 参考スコア(独自算出の注目度): 5.307245047613463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) has shown immense potential for learning to
control systems through data alone. However, one challenge deep RL faces is
that the full state of the system is often not observable. When this is the
case, the policy needs to leverage the history of observations to infer the
current state. At the same time, differences between the training and testing
environments makes it critical for the policy not to overfit to the sequence of
observations it sees at training time. As such, there is an important balancing
act between having the history encoder be flexible enough to extract relevant
information, yet be robust to changes in the environment. To strike this
balance, we look to the PID controller for inspiration. We assert the PID
controller's success shows that only summing and differencing are needed to
accumulate information over time for many control tasks. Following this
principle, we propose two architectures for encoding history: one that directly
uses PID features and another that extends these core ideas and can be used in
arbitrary control tasks. When compared with prior approaches, our encoders
produce policies that are often more robust and achieve better performance on a
variety of tracking tasks. Going beyond tracking tasks, our policies achieve
1.7x better performance on average over previous state-of-the-art methods on a
suite of high dimensional control tasks.
- Abstract(参考訳): 深層強化学習(英語版) (RL) は、データだけでシステムを制御できる大きな可能性を示している。
しかし、深いRLが直面する課題の1つは、システムの完全な状態がしばしば観測できないことである。
このような場合、ポリシーは現在の状態を推測するために観測履歴を活用する必要があります。
同時に、トレーニング環境とテスト環境の違いは、トレーニング時に見る観察のシーケンスに過度に適合しないようにポリシーを重要視します。
このように、履歴エンコーダが関連する情報を抽出するのに十分な柔軟性を持ちながら、環境の変化に頑健であることの間には、重要なバランスをとる行為がある。
このバランスをとるために、私たちはPIDコントローラにインスピレーションを与えます。
PIDコントローラの成功は、多くの制御タスクに時間をかけて情報を蓄積するためには、和と差分のみが必要であることを示す。
この原則に従って,PID機能を直接利用するアーキテクチャと,これらのコアアイデアを拡張して任意の制御タスクで使用できるアーキテクチャの2つを提案する。
従来のアプローチと比較すると、エンコーダは、多くの場合、より堅牢で、さまざまなトラッキングタスクでパフォーマンスが向上するポリシを生成します。
タスクのトラッキングを超えて、我々のポリシーは、高次元制御タスクスイートにおける従来の最先端メソッドよりも平均1.7倍高いパフォーマンスを達成する。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - A comparison of RL-based and PID controllers for 6-DOF swimming robots:
hybrid underwater object tracking [8.362739554991073]
本稿では,PIDコントローラの代替として,集中型深層Q-network(DQN)コントローラを用いた調査と評価を行う。
我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。
本実験は,Unityをベースとしたシミュレータで実施し,分離したPIDコントローラ上での集中型RLエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-29T23:14:15Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。