論文の概要: LeTO: Learning Constrained Visuomotor Policy with Differentiable
Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2401.17500v1
- Date: Tue, 30 Jan 2024 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:02:41.435821
- Title: LeTO: Learning Constrained Visuomotor Policy with Differentiable
Trajectory Optimization
- Title(参考訳): LeTO:微分軌道最適化による制約付きビジュモータ政策の学習
- Authors: Zhengtong Xu, Yu She
- Abstract要約: 本稿では,可微分軌道最適化による制約付きビジュモータポリシーの学習手法であるLeTOを紹介する。
シミュレーションでは、LeTOは最先端の模倣学習手法に匹敵する成功率を達成する。
実世界の実験では、制約クリティカルなタスクを処理するためにLeTOをデプロイしました。
- 参考スコア(独自算出の注目度): 1.3706331473063884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LeTO, a method for learning constrained visuomotor
policy via differentiable trajectory optimization. Our approach uniquely
integrates a differentiable optimization layer into the neural network. By
formulating the optimization layer as a trajectory optimization problem, we
enable the model to end-to-end generate actions in a safe and controlled
fashion without extra modules. Our method allows for the introduction of
constraints information during the training process, thereby balancing the
training objectives of satisfying constraints, smoothing the trajectories, and
minimizing errors with demonstrations. This "gray box" method marries the
optimization-based safety and interpretability with the powerful
representational abilities of neural networks. We quantitatively evaluate LeTO
in simulation and on the real robot. In simulation, LeTO achieves a success
rate comparable to state-of-the-art imitation learning methods, but the
generated trajectories are of less uncertainty, higher quality, and smoother.
In real-world experiments, we deployed LeTO to handle constraints-critical
tasks. The results show the effectiveness of LeTO comparing with
state-of-the-art imitation learning approaches. We release our code at
https://github.com/ZhengtongXu/LeTO.
- Abstract(参考訳): 本稿では,可微分軌道最適化による制約付きビジュモータポリシーの学習手法であるLeTOを紹介する。
我々のアプローチは、差別化可能な最適化層をニューラルネットワークに一意に統合する。
最適化層を軌道最適化問題として定式化することにより、モデルが余分なモジュールなしで安全かつ制御された方法でアクションを生成することができる。
本手法は,訓練過程中に制約情報を導入し,制約を満たすためのトレーニング目標のバランス,軌道の平滑化,デモによる誤りの最小化を可能にする。
この"グレーボックス"メソッドは、最適化に基づく安全性と解釈性を、ニューラルネットワークの強力な表現能力とマージする。
シミュレーションおよび実ロボット上でLeTOを定量的に評価する。
シミュレーションでは、LeTOは最先端の模倣学習手法に匹敵する成功率を達成するが、生成された軌道は不確実性が少なく、高品質で、より滑らかである。
実世界の実験では、制約クリティカルなタスクを処理するためにLeTOをデプロイしました。
その結果,LeTOと最先端の模倣学習手法を比較した。
コードをhttps://github.com/ZhengtongXu/LeTOでリリースします。
関連論文リスト
- Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning to optimize by multi-gradient for multi-objective optimization [0.0]
我々はMOO問題を最適化するための新しい自動学習パラダイムを導入し、ML2O法を提案する。
学習に基づく手法として、ML2Oは現在のステップからの情報を活用することで、地域景観の知識を取得する。
我々の学習は、マルチタスク学習(MTL)ニューラルネットワークのトレーニングにおいて、手作りの競争相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T14:55:54Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Real-World Dexterous Object Manipulation based Deep Reinforcement
Learning [3.4493195428573613]
ロボットの制御に深層強化学習を用いる方法を示す。
この枠組みは, 深層強化学習の低サンプリング効率の欠点を低減させる。
我々のアルゴリズムはシミュレーションで訓練され、微調整なしで現実に移行した。
論文 参考訳(メタデータ) (2021-11-22T02:48:05Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。
既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。
そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文 参考訳(メタデータ) (2020-02-25T09:47:39Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。