論文の概要: Learning Contraction Policies from Offline Data
- arxiv url: http://arxiv.org/abs/2112.05911v1
- Date: Sat, 11 Dec 2021 03:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:44:30.752727
- Title: Learning Contraction Policies from Offline Data
- Title(参考訳): オフラインデータからの縮小ポリシーの学習
- Authors: Navid Rezazadeh and Maxwell Kolarich and Solmaz S. Kia and Negar Mehr
- Abstract要約: 本稿では,契約理論を用いたオフラインデータから収束制御ポリシーを学習するためのデータ駆動手法を提案する。
我々は,契約を施行しながら,制御ポリシとその対応する契約基準を学習する。
我々は,ロボットの目標達成タスクを模擬したフレームワークの性能評価を行った。
- 参考スコア(独自算出の注目度): 1.5771347525430772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a data-driven method for learning convergent control
policies from offline data using Contraction theory. Contraction theory enables
constructing a policy that makes the closed-loop system trajectories inherently
convergent towards a unique trajectory. At the technical level, identifying the
contraction metric, which is the distance metric with respect to which a
robot's trajectories exhibit contraction is often non-trivial. We propose to
jointly learn the control policy and its corresponding contraction metric while
enforcing contraction. To achieve this, we learn an implicit dynamics model of
the robotic system from an offline data set consisting of the robot's state and
input trajectories. Using this learned dynamics model, we propose a data
augmentation algorithm for learning contraction policies. We randomly generate
samples in the state-space and propagate them forward in time through the
learned dynamics model to generate auxiliary sample trajectories. We then learn
both the control policy and the contraction metric such that the distance
between the trajectories from the offline data set and our generated auxiliary
sample trajectories decreases over time. We evaluate the performance of our
proposed framework on simulated robotic goal-reaching tasks and demonstrate
that enforcing contraction results in faster convergence and greater robustness
of the learned policy.
- Abstract(参考訳): 本稿では,収縮理論を用いてオフラインデータから収束制御ポリシーを学習するためのデータ駆動手法を提案する。
縮約理論は閉ループ系を本質的に一意な軌道に収束させるポリシーを構築することができる。
技術的なレベルでは、ロボットの軌道が収縮を示す距離計量である収縮計量を特定することは、しばしば非自明である。
本稿では,制御方針とそれに対応する収縮指標を共同で学習し,収縮を強制することを提案する。
これを実現するために,ロボットの状態と入力軌跡からなるオフラインデータセットから,ロボットシステムの暗黙のダイナミクスモデルを学ぶ。
本稿では,この学習ダイナミクスモデルを用いて,収縮ポリシー学習のためのデータ拡張アルゴリズムを提案する。
状態空間内のサンプルをランダムに生成し、学習された動的モデルを通して時間内に伝播し、補助的なサンプル軌道を生成する。
次に,オフラインデータセットからの軌道と生成した補助サンプル軌道との間の距離が時間とともに減少するように,制御ポリシーと縮小メトリックの両方を学習する。
本研究では,ロボットの目標達成タスクを模擬したフレームワークの性能評価を行い,より高速な収束と学習方針の堅牢性を示す。
関連論文リスト
- Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Sample Efficient Dynamics Learning for Symmetrical Legged
Robots:Leveraging Physics Invariance and Geometric Symmetries [14.848950116410231]
本稿では,基礎となるロボットシステムにおける対称性を利用したダイナミクスの学習手法を提案する。
ベクトル空間における全てのデータを表す既存のフレームワークは、ロボットの構造化情報を考えるのに失敗する。
論文 参考訳(メタデータ) (2022-10-13T19:57:46Z) - Learning Policies for Continuous Control via Transition Models [2.831332389089239]
ロボット制御では、腕のエンドエフェクターを目標位置または目標軌道に沿って移動させるには、正確な前方および逆モデルが必要である。
相互作用から遷移(前方)モデルを学習することで、償却されたポリシーの学習を促進することができることを示す。
論文 参考訳(メタデータ) (2022-09-16T16:23:48Z) - Estimating Link Flows in Road Networks with Synthetic Trajectory Data
Generation: Reinforcement Learning-based Approaches [7.369475193451259]
本稿では,限られた交通量と車両軌道データを組み合わせることで,道路網内のリンクフローを推定する問題に対処する。
本稿では,車両の連接動作を逐次決定問題として定式化する,新しい生成モデルフレームワークを提案する。
発生した人口車両軌跡が観測された交通量と軌跡データと一致していることを確認するために,逆強化学習と制約強化学習に基づく2つの手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T13:14:52Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics [29.219095364935885]
オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、環境のアウト・オブ・ディストリビューションの一般化にデプロイすると、パフォーマンスが悪くなります。
我々は、システムの基盤となる力学の対称性を推測できるクープマン潜在表現を学習する。
我々は,D4RL,Metaworld,Robosuiteなどのオフライン強化学習タスクとデータセットをベンチマークで評価した。
論文 参考訳(メタデータ) (2021-11-02T04:32:18Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。