論文の概要: GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories
- arxiv url: http://arxiv.org/abs/2604.22724v1
- Date: Fri, 24 Apr 2026 17:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.543344
- Title: GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories
- Title(参考訳): GCImOpt:最適軌道を模倣した効率的な目標条件政策の学習
- Authors: Jon Goikoetxea, Jesús F. Palacián,
- Abstract要約: GCImOptは、軌道最適化によって生成されたデータセットをトレーニングすることで、効率的な目標条件付きポリシーを学習するアプローチである。
トレーニングされたポリシーは、高い成功率とほぼ最適制御プロファイルを達成することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is a well-established approach for machine-learning-based control. However, its applicability depends on having access to demonstrations, which are often expensive to collect and/or suboptimal for solving the task. In this work, we present GCImOpt, an approach to learn efficient goal-conditioned policies by training on datasets generated by trajectory optimization. Our approach for dataset generation is computationally efficient, can generate thousands of optimal trajectories in minutes on a laptop computer, and produces high-quality demonstrations. Further, by means of a data augmentation scheme that treats intermediate states as goals, we are able to increase the training dataset size by an order of magnitude. Using our generated datasets, we train goal-conditioned neural network policies that can control the system towards arbitrary goals. To demonstrate the generality of our approach, we generate datasets and then train policies for various control tasks, namely cart-pole stabilization, planar and three-dimensional quadcopter stabilization, and point reaching using a 6-DoF robot arm. We show that our trained policies can achieve high success rates and near-optimal control profiles, all while being small (less than 80,000 neural network parameters) and fast enough (up to more than 6,000 times faster than a trajectory optimization solver) that they could be deployed onboard resource-constrained controllers. We provide videos, code, datasets and pre-trained policies under a free software license; see our project website https://jongoiko.github.io/gcimopt/.
- Abstract(参考訳): 模倣学習は、機械学習に基づく制御の確立したアプローチである。
しかし、その適用性はデモへのアクセスにかかっているため、多くの場合、タスクの収集および/またはサブ最適化にコストがかかる。
本稿では、軌道最適化によって生成されたデータセットをトレーニングすることで、効率的な目標条件ポリシーを学習するGCImOptを提案する。
データセット生成に対する我々のアプローチは計算効率が高く、ラップトップコンピュータ上で数千の最適軌跡を数分で生成し、高品質な実演を作成できる。
さらに、中間状態を目標として扱うデータ拡張方式により、トレーニングデータセットのサイズを桁違いに拡大することができる。
生成されたデータセットを使用して、任意の目標に向けてシステムを制御可能な、目標条件のニューラルネットワークポリシをトレーニングします。
提案手法の汎用性を示すため,我々は,カートポール安定化,平面および3次元クアッドコプター安定化,および6-DoFロボットアームを用いた点到達といった,様々な制御タスクのためのデータセットを生成し,そのポリシーを訓練する。
トレーニングされたポリシーは、高い成功率とほぼ最適制御プロファイルを達成でき、そのすべてが(8万のニューラルネットワークパラメータを満たさない)小さく、(軌道最適化の解法よりも6,000倍速い)十分に高速でありながら、リソース制約のあるコントローラにデプロイ可能であることを示しています。
フリーソフトウェアライセンス下では、ビデオ、コード、データセット、事前トレーニング済みのポリシーを提供しています。
関連論文リスト
- TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文 参考訳(メタデータ) (2022-09-26T22:04:35Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。