Fugu-MT 論文翻訳(概要): DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning

論文の概要: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning

arxiv url: http://arxiv.org/abs/2402.05421v1
Date: Thu, 8 Feb 2024 05:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 16:19:16.276124
Title: DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning
Title（参考訳）: DiffTOP:深部強化と模倣学習のための微分軌道最適化
Authors: Weikang Wan, Yufei Wang, Zackory Erickson, David Held
Abstract要約: 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。 15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。
参考スコア（独自算出の注目度）: 20.924138358025374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces DiffTOP, which utilizes Differentiable Trajectory OPtimization as the policy representation to generate actions for deep reinforcement and imitation learning. Trajectory optimization is a powerful and widely used algorithm in control, parameterized by a cost and a dynamics function. The key to our approach is to leverage the recent progress in differentiable trajectory optimization, which enables computing the gradients of the loss with respect to the parameters of trajectory optimization. As a result, the cost and dynamics functions of trajectory optimization can be learned end-to-end. DiffTOP addresses the ``objective mismatch'' issue of prior model-based RL algorithms, as the dynamics model in DiffTOP is learned to directly maximize task performance by differentiating the policy gradient loss through the trajectory optimization process. We further benchmark DiffTOP for imitation learning on standard robotic manipulation task suites with high-dimensional sensory observations and compare our method to feed-forward policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15 model-based RL tasks and 13 imitation learning tasks with high-dimensional image and point cloud inputs, DiffTOP outperforms prior state-of-the-art methods in both domains.
Abstract（参考訳）: 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。トラジェクトリ最適化は、コストと動的関数によってパラメータ化され、制御において強力で広く使用されるアルゴリズムである。提案手法の鍵となるのは,近年の微分可能軌道最適化の進歩を活用し,軌道最適化のパラメータに対する損失の勾配を計算することである。その結果、軌道最適化のコストとダイナミクス関数をエンドツーエンドで学習することができる。 DiffTOPは従来のモデルベースRLアルゴリズムの ``objective mismatch' 問題に対処し、DiffTOPの動的モデルは軌道最適化プロセスを通じて方針勾配損失を微分することによりタスク性能を直接最大化する。さらに,DiffTOPによるロボット操作作業スイートの模倣学習を高次元の感覚観測で評価し,エネルギーベースモデル(EBM)や拡散モデル(Diffusion)と同様にフィードフォワードポリシークラスと比較した。 15のモデルベースRLタスクと13の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTOPは両方のドメインにおける最先端の手法よりも優れている。

関連論文リスト

Flows and Diffusions on the Neural Manifold [0.0]
拡散およびフローベース生成モデルは、画像合成、ビデオ生成、自然言語モデリングといった領域で顕著に成功している。これらの進歩は、最近の手法を活用して、最適化力学から導かれる構造的事前を組み込むことにより、重み空間学習に拡張する。
論文参考訳（メタデータ） (2025-07-14T02:26:06Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning [6.871390204787483]
我々は,Gibs測度の勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。次に、目的関数に指数変換を適用することにより、ポリシー勾配法がMPPIに還元されることを実証する。
論文参考訳（メタデータ） (2025-02-27T19:26:36Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining [8.598456741786801]
本稿では,新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端のマルチオブジェクトよりも優れています。
論文参考訳（メタデータ） (2024-05-24T07:43:45Z)
Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文参考訳（メタデータ） (2024-04-03T19:48:13Z)
LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization [1.1602089225841634]
本稿では,制約付きビジュモータポリシーの学習手法であるLeTOを紹介した。シミュレーションおよび実ロボットにおけるLeTOの定量的評価を行った。
論文参考訳（メタデータ） (2024-01-30T23:18:35Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文参考訳（メタデータ） (2022-04-09T22:07:34Z)
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文参考訳（メタデータ） (2021-12-18T14:32:32Z)
A Differential Game Theoretic Neural Optimizer for Training Residual Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文参考訳（メタデータ） (2020-07-17T10:19:17Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。