論文の概要: LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2401.17500v3
- Date: Wed, 23 Oct 2024 18:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:09.483421
- Title: LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization
- Title(参考訳): LeTO:微分軌道最適化による制約付きビジュモータ政策の学習
- Authors: Zhengtong Xu, Yu She,
- Abstract要約: 本稿では,制約付きビジュモータポリシーの学習手法であるLeTOを紹介した。
シミュレーションおよび実ロボットにおけるLeTOの定量的評価を行った。
- 参考スコア(独自算出の注目度): 1.1602089225841634
- License:
- Abstract: This paper introduces LeTO, a method for learning constrained visuomotor policy with differentiable trajectory optimization. Our approach integrates a differentiable optimization layer into the neural network. By formulating the optimization layer as a trajectory optimization problem, we enable the model to end-to-end generate actions in a safe and constraint-controlled fashion without extra modules. Our method allows for the introduction of constraint information during the training process, thereby balancing the training objectives of satisfying constraints, smoothing the trajectories, and minimizing errors with demonstrations. This ``gray box" method marries optimization-based safety and interpretability with powerful representational abilities of neural networks. We quantitatively evaluate LeTO in simulation and in the real robot. The results demonstrate that LeTO performs well in both simulated and real-world tasks. In addition, it is capable of generating trajectories that are less uncertain, higher quality, and smoother compared to existing imitation learning methods. Therefore, it is shown that LeTO provides a practical example of how to achieve the integration of neural networks with trajectory optimization. We release our code at https://github.com/ZhengtongXu/LeTO.
- Abstract(参考訳): 本稿では,制約付きビジュモータポリシーの学習手法であるLeTOを紹介した。
我々のアプローチは、ニューラルネットワークに微分可能な最適化層を統合する。
最適化層を軌道最適化問題として定式化することにより、余分なモジュールを使わずに、安全かつ制約のある方法でアクションを終端から終端に生成することができる。
これにより,制約を満たすこと,軌道の平滑化,デモンストレーションによる誤りの最小化といったトレーニング目標のバランスをとることができる。
この‘gray box’メソッドは、ニューラルネットワークの強力な表現能力を備えた最適化ベースの安全性と解釈性をマージする。
シミュレーションおよび実ロボットにおけるLeTOの定量的評価を行った。
その結果、LeTOはシミュレーションと実世界のタスクの両方でうまく機能していることがわかった。
また、既存の模倣学習法と比較して、不確実性が少なく、高品質で、スムーズな軌道を生成することができる。
したがって、LTOは、軌道最適化とニューラルネットワークの統合を実現するための実践的な例を提供する。
コードをhttps://github.com/ZhengtongXu/LeTOでリリースします。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning [19.84386060857712]
本稿では、微分軌道最適化をポリシー表現として活用し、深層強化と模倣学習のためのアクションを生成するDiffTORIを提案する。
15のモデルベースRLタスクと35の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTORIはどちらのドメインでも最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-02-08T05:26:40Z) - Learning to optimize by multi-gradient for multi-objective optimization [0.0]
我々はMOO問題を最適化するための新しい自動学習パラダイムを導入し、ML2O法を提案する。
学習に基づく手法として、ML2Oは現在のステップからの情報を活用することで、地域景観の知識を取得する。
我々の学習は、マルチタスク学習(MTL)ニューラルネットワークのトレーニングにおいて、手作りの競争相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T14:55:54Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。