Fugu-MT 論文翻訳(概要): Proximal Policy Optimization for Tracking Control Exploiting Future Reference Information

論文の概要: Proximal Policy Optimization for Tracking Control Exploiting Future Reference Information

arxiv url: http://arxiv.org/abs/2107.09647v1
Date: Tue, 20 Jul 2021 17:32:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 14:42:42.087104
Title: Proximal Policy Optimization for Tracking Control Exploiting Future Reference Information
Title（参考訳）: 今後の基準情報に対する追従制御の最適化
Authors: Jana Mayer, Johannes Westermann, Juan Pedro Guti\'errez H. Muriedas, Uwe Mettin, Alexander Lampe
Abstract要約: 本研究では、任意の参照信号に対する近位勾配ポリシー最適化(PPO)の追跡性能を、将来の参照値を組み込んで改善する。本手法は、単純な駆動列車モデル上でPIコントローラに対して評価される。
参考スコア（独自算出の注目度）: 58.720142291102135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, reinforcement learning (RL) has gained increasing attention in control engineering. Especially, policy gradient methods are widely used. In this work, we improve the tracking performance of proximal policy optimization (PPO) for arbitrary reference signals by incorporating information about future reference values. Two variants of extending the argument of the actor and the critic taking future reference values into account are presented. In the first variant, global future reference values are added to the argument. For the second variant, a novel kind of residual space with future reference values applicable to model-free reinforcement learning is introduced. Our approach is evaluated against a PI controller on a simple drive train model. We expect our method to generalize to arbitrary references better than previous approaches, pointing towards the applicability of RL to control real systems.
Abstract（参考訳）: 近年、強化学習(RL)は制御工学において注目を集めている。特に政策勾配法は広く用いられている。本研究では,将来の参照値に関する情報を取り入れることで,任意の参照信号に対する近位ポリシー最適化(ppo)の追跡性能を向上させる。将来的な参照値を考慮したアクターと批評家の議論を拡張する2つのバリエーションを示す。第1の変種では、引数にグローバル未来参照値が追加される。第2の変種では、モデルフリー強化学習に適用可能な将来の参照値を持つ新しい種類の残留空間が導入された。本手法は、単純な駆動列車モデル上でPIコントローラに対して評価される。提案手法は,実システム制御におけるRLの適用性に着目し,従来の手法よりも任意の参照への一般化を期待する。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文参考訳（メタデータ） (2025-06-06T15:42:15Z)
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
ProSpec RL: Plan Ahead, then Execute [7.028937493640123]
将来的なnストリーム軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。 ProSpecは、現在の状態と一連のサンプルアクションに基づいて将来の状態を予測するために、ダイナミックモデルを使用している。提案手法の有効性をDMControlベンチマークで検証し,本手法による性能改善を実現した。
論文参考訳（メタデータ） (2024-07-31T06:04:55Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Model-based adaptation for sample efficient transfer in reinforcement learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文参考訳（メタデータ） (2023-05-20T10:11:09Z)
Model-based trajectory stitching for improved behavioural cloning and its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文参考訳（メタデータ） (2022-12-08T14:18:04Z)
Enforcing the consensus between Trajectory Optimization and Policy Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文参考訳（メタデータ） (2022-09-19T13:32:09Z)
A Parametric Class of Approximate Gradient Updates for Policy Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文参考訳（メタデータ） (2022-06-17T01:28:38Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文参考訳（メタデータ） (2020-02-19T18:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。