論文の概要: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement
and Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.05421v1
- Date: Thu, 8 Feb 2024 05:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:19:16.276124
- Title: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement
and Imitation Learning
- Title(参考訳): DiffTOP:深部強化と模倣学習のための微分軌道最適化
- Authors: Weikang Wan, Yufei Wang, Zackory Erickson, David Held
- Abstract要約: 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。
15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 20.924138358025374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces DiffTOP, which utilizes Differentiable Trajectory
OPtimization as the policy representation to generate actions for deep
reinforcement and imitation learning. Trajectory optimization is a powerful and
widely used algorithm in control, parameterized by a cost and a dynamics
function. The key to our approach is to leverage the recent progress in
differentiable trajectory optimization, which enables computing the gradients
of the loss with respect to the parameters of trajectory optimization. As a
result, the cost and dynamics functions of trajectory optimization can be
learned end-to-end. DiffTOP addresses the ``objective mismatch'' issue of prior
model-based RL algorithms, as the dynamics model in DiffTOP is learned to
directly maximize task performance by differentiating the policy gradient loss
through the trajectory optimization process. We further benchmark DiffTOP for
imitation learning on standard robotic manipulation task suites with
high-dimensional sensory observations and compare our method to feed-forward
policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15
model-based RL tasks and 13 imitation learning tasks with high-dimensional
image and point cloud inputs, DiffTOP outperforms prior state-of-the-art
methods in both domains.
- Abstract(参考訳): 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。
トラジェクトリ最適化は、コストと動的関数によってパラメータ化され、制御において強力で広く使用されるアルゴリズムである。
提案手法の鍵となるのは,近年の微分可能軌道最適化の進歩を活用し,軌道最適化のパラメータに対する損失の勾配を計算することである。
その結果、軌道最適化のコストとダイナミクス関数をエンドツーエンドで学習することができる。
DiffTOPは従来のモデルベースRLアルゴリズムの ``objective mismatch' 問題に対処し、DiffTOPの動的モデルは軌道最適化プロセスを通じて方針勾配損失を微分することによりタスク性能を直接最大化する。
さらに,DiffTOPによるロボット操作作業スイートの模倣学習を高次元の感覚観測で評価し,エネルギーベースモデル(EBM)や拡散モデル(Diffusion)と同様にフィードフォワードポリシークラスと比較した。
15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining [8.598456741786801]
本稿では,新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。
我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端のマルチオブジェクトよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T07:43:45Z) - Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。
エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。
いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文 参考訳(メタデータ) (2024-04-03T19:48:13Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。