論文の概要: LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2401.17500v2
- Date: Mon, 18 Mar 2024 07:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:12:30.817383
- Title: LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization
- Title(参考訳): LeTO:微分軌道最適化による制約付きビジュモータ政策の学習
- Authors: Zhengtong Xu, Yu She,
- Abstract要約: 本稿では,可微分軌道最適化による制約付きビジュモータポリシーの学習手法であるLeTOを紹介する。
シミュレーションでは、LeTOは最先端の模倣学習手法に匹敵する成功率を達成する。
実世界の実験では、制約クリティカルなタスクを処理するためにLeTOをデプロイしました。
- 参考スコア(独自算出の注目度): 1.1602089225841634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LeTO, a method for learning constrained visuomotor policy via differentiable trajectory optimization. Our approach uniquely integrates a differentiable optimization layer into the neural network. By formulating the optimization layer as a trajectory optimization problem, we enable the model to end-to-end generate actions in a safe and controlled fashion without extra modules. Our method allows for the introduction of constraints information during the training process, thereby balancing the training objectives of satisfying constraints, smoothing the trajectories, and minimizing errors with demonstrations. This "gray box" method marries the optimization-based safety and interpretability with the powerful representational abilities of neural networks. We quantitatively evaluate LeTO in simulation and on the real robot. In simulation, LeTO achieves a success rate comparable to state-of-the-art imitation learning methods, but the generated trajectories are of less uncertainty, higher quality, and smoother. In real-world experiments, we deployed LeTO to handle constraints-critical tasks. The results show the effectiveness of LeTO comparing with state-of-the-art imitation learning approaches. We release our code at https://github.com/ZhengtongXu/LeTO.
- Abstract(参考訳): 本稿では,可微分軌道最適化による制約付きビジュモータポリシーの学習手法であるLeTOを紹介する。
当社のアプローチでは,ニューラルネットワークに微分可能な最適化レイヤを独自に統合しています。
最適化層を軌道最適化問題として定式化することにより、モデルが余分なモジュールなしで安全かつ制御された方法でアクションをエンド・ツー・エンドに生成できるようにする。
本手法は,訓練過程中に制約情報を導入し,制約を満たすための訓練目標のバランス,軌道の平滑化,実証による誤りの最小化を可能にする。
この"グレーボックス"メソッドは、最適化に基づく安全性と解釈性を、ニューラルネットワークの強力な表現能力とマージする。
シミュレーションおよび実ロボット上でLeTOを定量的に評価する。
シミュレーションでは、LeTOは最先端の模倣学習手法に匹敵する成功率を達成するが、生成された軌道は不確実性が少なく、高品質で、より滑らかである。
実世界の実験では、制約クリティカルなタスクを処理するためにLeTOをデプロイしました。
その結果,LeTOと最先端の模倣学習手法を比較した。
コードをhttps://github.com/ZhengtongXu/LeTOでリリースします。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning [19.84386060857712]
本稿では、微分軌道最適化をポリシー表現として活用し、深層強化と模倣学習のためのアクションを生成するDiffTORIを提案する。
15のモデルベースRLタスクと35の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTORIはどちらのドメインでも最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-02-08T05:26:40Z) - Learning to optimize by multi-gradient for multi-objective optimization [0.0]
我々はMOO問題を最適化するための新しい自動学習パラダイムを導入し、ML2O法を提案する。
学習に基づく手法として、ML2Oは現在のステップからの情報を活用することで、地域景観の知識を取得する。
我々の学習は、マルチタスク学習(MTL)ニューラルネットワークのトレーニングにおいて、手作りの競争相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T14:55:54Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。