Fugu-MT 論文翻訳(概要): Scaling Learning based Policy Optimization for Temporal Tasks via Dropout

論文の概要: Scaling Learning based Policy Optimization for Temporal Tasks via Dropout

arxiv url: http://arxiv.org/abs/2403.15826v1
Date: Sat, 23 Mar 2024 12:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 20:52:58.806459
Title: Scaling Learning based Policy Optimization for Temporal Tasks via Dropout
Title（参考訳）: ドロップアウトによる時間課題のスケーリング学習に基づくポリシー最適化
Authors: Navid Hashemi, Bardh Hoxha, Danil Prokhorov, Georgios Fainekos, Jyotirmoy Deshmukh,
Abstract要約: 非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 4.421486904657393
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces a model-based approach for training feedback controllers for an autonomous agent operating in a highly nonlinear environment. We desire the trained policy to ensure that the agent satisfies specific task objectives, expressed in discrete-time Signal Temporal Logic (DT-STL). One advantage for reformulation of a task via formal frameworks, like DT-STL, is that it permits quantitative satisfaction semantics. In other words, given a trajectory and a DT-STL formula, we can compute the robustness, which can be interpreted as an approximate signed distance between the trajectory and the set of trajectories satisfying the formula. We utilize feedback controllers, and we assume a feed forward neural network for learning these feedback controllers. We show how this learning problem is similar to training recurrent neural networks (RNNs), where the number of recurrent units is proportional to the temporal horizon of the agent's task objectives. This poses a challenge: RNNs are susceptible to vanishing and exploding gradients, and na\"{i}ve gradient descent-based strategies to solve long-horizon task objectives thus suffer from the same problems. To tackle this challenge, we introduce a novel gradient approximation algorithm based on the idea of dropout or gradient sampling. We show that, the existing smooth semantics for robustness are inefficient regarding gradient computation when the specification becomes complex. To address this challenge, we propose a new smooth semantics for DT-STL that under-approximates the robustness value and scales well for backpropagation over a complex specification. We show that our control synthesis methodology, can be quite helpful for stochastic gradient descent to converge with less numerical issues, enabling scalable backpropagation over long time horizons and trajectories over high dimensional state spaces.
Abstract（参考訳）: 本稿では,高非線形環境下で動作する自律エージェントに対するフィードバックコントローラのトレーニングのためのモデルに基づくアプローチを提案する。我々は、エージェントが個別時間信号時間論理(DT-STL)で表される特定のタスク目標を満たすことを保証するために、訓練されたポリシーを望んでいる。 DT-STLのような形式的なフレームワークによるタスクの再構成の利点の1つは、定量的なセマンティクスを可能にすることである。言い換えれば、軌跡とDT-STL式が与えられた場合、ロバスト性を計算することができ、これはこの式を満たす軌跡と軌跡の集合との近似符号距離として解釈できる。フィードバックコントローラを利用し、フィードバックコントローラを学習するためにフィードフォワードニューラルネットワークを仮定する。この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。このことは、RNNは勾配の消滅と爆発に感受性があり、na\"{i}ve 勾配降下に基づく戦略は、長い水平タスクの目的を解決するため、同じ問題に悩まされる。この課題に対処するために、ドロップアウトや勾配サンプリングのアイデアに基づいた、新しい勾配近似アルゴリズムを導入する。仕様が複雑になったとき, 従来のスムーズなロバスト性のセマンティクスは勾配計算の非効率性を示す。この課題に対処するために,DT-STLのスムーズなセマンティクスを提案する。制御合成手法は,より少ない数値問題に収束する確率勾配降下に非常に役立ち,長期間の地平線上でのスケーラブルなバックプロパゲーションと高次元状態空間上でのトラジェクトリを実現することができることを示す。

関連論文リスト

ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。学習タスクを再編成し、慣性参照からの残留偏差を予測する。 NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文参考訳（メタデータ） (2025-10-09T17:59:36Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。 BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-29T14:45:52Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications [11.010530034121224]
本稿では,学習速度を大幅に向上させる新しいQ-ラーニングアルゴリズムを提案する。サンプル効率の向上は、ミッションが成功に寄与する可能性のある方向への探索を優先する、ミッション駆動の探査戦略に由来する。
論文参考訳（メタデータ） (2023-11-28T18:59:58Z)
Verified Compositional Neuro-Symbolic Control for Stochastic Systems with Temporal Logic Tasks [11.614036749291216]
自律エージェントのためのニューラルネットワーク(NN)コントローラを学ぶために、最近いくつかの方法が提案されている。これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。本稿では,訓練されたNNコントローラの時間的構成が存在するかどうかを確認することで,この問題に対処することを目的とする。
論文参考訳（メタデータ） (2023-11-17T20:51:24Z)
Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文参考訳（メタデータ） (2023-10-04T09:39:05Z)
Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-09T17:09:51Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Control of Stochastic Quantum Dynamics with Differentiable Programming [0.0]
微分可能プログラミングに基づく制御スキームの自動設計のためのフレームワークを提案する。このアプローチを、ホモジエン検出を受けるクビットの状態準備と安定化に適用する。その結果、信号と雑音の比が低いにもかかわらず、平均忠実度が約85%の目標状態へのキュービットの準備と安定化をコントローラに教えることができる。
論文参考訳（メタデータ） (2021-01-04T19:00:03Z)
Trajectory Planning for Autonomous Vehicles Using Hierarchical Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。 RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文参考訳（メタデータ） (2020-11-09T20:49:54Z)
Policy Gradient for Continuing Tasks in Non-stationary Markov Decision Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文参考訳（メタデータ） (2020-10-16T15:15:42Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)
Continuous Motion Planning with Temporal Logic Specifications using Deep Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2020-04-02T17:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。