論文の概要: Local Policy Optimization for Trajectory-Centric Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.08092v1
- Date: Wed, 22 Jan 2020 15:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:30:24.264127
- Title: Local Policy Optimization for Trajectory-Centric Reinforcement Learning
- Title(参考訳): 軌道中心強化学習のための局所的政策最適化
- Authors: Patrik Kolaric, Devesh K. Jha, Arvind U. Raghunathan, Frank L. Lewis,
Mouhacine Benosman, Diego Romeres and Daniel Nikovski
- Abstract要約: 多くのロボット操作タスクは軌道中心であり、グローバルモデルやポリシーを必要としない。
本稿では、軌道中心モデルに基づく強化学習のための局所ポリシーを生成するために、同時軌道安定化ポリシーと局所安定化ポリシーの最適化手法を提案する。
- 参考スコア(独自算出の注目度): 31.495672846638346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to present a method for simultaneous trajectory and
local stabilizing policy optimization to generate local policies for
trajectory-centric model-based reinforcement learning (MBRL). This is motivated
by the fact that global policy optimization for non-linear systems could be a
very challenging problem both algorithmically and numerically. However, a lot
of robotic manipulation tasks are trajectory-centric, and thus do not require a
global model or policy. Due to inaccuracies in the learned model estimates, an
open-loop trajectory optimization process mostly results in very poor
performance when used on the real system. Motivated by these problems, we try
to formulate the problem of trajectory optimization and local policy synthesis
as a single optimization problem. It is then solved simultaneously as an
instance of nonlinear programming. We provide some results for analysis as well
as achieved performance of the proposed technique under some simplifying
assumptions.
- Abstract(参考訳): 本稿では,軌道中心モデルに基づく強化学習 (mbrl) のための局所政策を生成するために,同時軌道と局所安定化政策の最適化手法を提案する。
これは、非線形システムに対するグローバルポリシー最適化がアルゴリズム的にも数値的にも非常に難しい問題であるという事実に動機づけられている。
しかし、多くのロボット操作タスクは軌道中心であり、それゆえにグローバルモデルやポリシーを必要としない。
学習したモデル推定における不正確さのため、オープンループ軌道最適化プロセスは、実際のシステムで使用する際の性能が極めて低い。
これらの問題により、軌道最適化と局所政策合成の問題を単一最適化問題として定式化しようとする。
その後、非線形プログラミングの例として同時に解く。
提案手法は,いくつかの簡易な仮定の下では,解析結果と性能を両立させる。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization [26.45568696453259]
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
論文 参考訳(メタデータ) (2023-05-16T17:13:00Z) - Convex Optimization-based Policy Adaptation to Compensate for
Distributional Shifts [0.991395455012393]
より優れたエラー性能と高速な計算時間で最適軌道を追跡するポリシーを学習できることが示される。
本研究では,デュビンの車載モデルを用いた最適経路の追尾と,線形モデルと非線形モデルの両方を用いた衝突回避の有効性を示す。
論文 参考訳(メタデータ) (2023-04-05T09:26:59Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:04:23Z) - Learning to Optimize Under Constraints with Unsupervised Deep Neural
Networks [0.0]
機械学習(ML)手法を提案し,汎用的制約付き連続最適化問題の解法を学習する。
本稿では,制約付き最適化問題をリアルタイムに解くための教師なしディープラーニング(DL)ソリューションを提案する。
論文 参考訳(メタデータ) (2021-01-04T02:58:37Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。