論文の概要: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement
and Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.05421v1
- Date: Thu, 8 Feb 2024 05:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:19:16.276124
- Title: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement
and Imitation Learning
- Title(参考訳): DiffTOP:深部強化と模倣学習のための微分軌道最適化
- Authors: Weikang Wan, Yufei Wang, Zackory Erickson, David Held
- Abstract要約: 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。
15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 20.924138358025374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces DiffTOP, which utilizes Differentiable Trajectory
OPtimization as the policy representation to generate actions for deep
reinforcement and imitation learning. Trajectory optimization is a powerful and
widely used algorithm in control, parameterized by a cost and a dynamics
function. The key to our approach is to leverage the recent progress in
differentiable trajectory optimization, which enables computing the gradients
of the loss with respect to the parameters of trajectory optimization. As a
result, the cost and dynamics functions of trajectory optimization can be
learned end-to-end. DiffTOP addresses the ``objective mismatch'' issue of prior
model-based RL algorithms, as the dynamics model in DiffTOP is learned to
directly maximize task performance by differentiating the policy gradient loss
through the trajectory optimization process. We further benchmark DiffTOP for
imitation learning on standard robotic manipulation task suites with
high-dimensional sensory observations and compare our method to feed-forward
policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15
model-based RL tasks and 13 imitation learning tasks with high-dimensional
image and point cloud inputs, DiffTOP outperforms prior state-of-the-art
methods in both domains.
- Abstract(参考訳): 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。
トラジェクトリ最適化は、コストと動的関数によってパラメータ化され、制御において強力で広く使用されるアルゴリズムである。
提案手法の鍵となるのは,近年の微分可能軌道最適化の進歩を活用し,軌道最適化のパラメータに対する損失の勾配を計算することである。
その結果、軌道最適化のコストとダイナミクス関数をエンドツーエンドで学習することができる。
DiffTOPは従来のモデルベースRLアルゴリズムの ``objective mismatch' 問題に対処し、DiffTOPの動的モデルは軌道最適化プロセスを通じて方針勾配損失を微分することによりタスク性能を直接最大化する。
さらに,DiffTOPによるロボット操作作業スイートの模倣学習を高次元の感覚観測で評価し,エネルギーベースモデル(EBM)や拡散モデル(Diffusion)と同様にフィードフォワードポリシークラスと比較した。
15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。
関連論文リスト
- Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。
エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。
いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文 参考訳(メタデータ) (2024-04-03T19:48:13Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。